論文の概要: CREDAL: Close Reading of Data Models
- arxiv url: http://arxiv.org/abs/2502.07943v1
- Date: Tue, 11 Feb 2025 20:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:47.894558
- Title: CREDAL: Close Reading of Data Models
- Title(参考訳): CREDAL: データモデルのクローズリーディング
- Authors: George Fletcher, Olha Nahurna, Matvii Prytula, Julia Stoyanovich,
- Abstract要約: データモデルのクローズリーディングは、物質性、系図、技術、クローズドな性質、そして技術システムの設計と私たちを結びつける。
現在、データモデルを読むための体系的な方法論は存在しない。
データモデルのクローズリーディングのためのCREDAL手法を提案する。
- 参考スコア(独自算出の注目度): 10.426746231592361
- License:
- Abstract: Data models are necessary for the birth of data and of any data-driven system. Indeed, every algorithm, every machine learning model, every statistical model, and every database has an underlying data model without which the system would not be usable. Hence, data models are excellent sites for interrogating the (material, social, political, ...) conditions giving rise to a data system. Towards this, drawing inspiration from literary criticism, we propose to closely read data models in the same spirit as we closely read literary artifacts. Close readings of data models reconnect us with, among other things, the materiality, the genealogies, the techne, the closed nature, and the design of technical systems. While recognizing from literary theory that there is no one correct way to read, it is nonetheless critical to have systematic guidance for those unfamiliar with close readings. This is especially true for those trained in the computing and data sciences, who too often are enculturated to set aside the socio-political aspects of data work. A systematic methodology for reading data models currently does not exist. To fill this gap, we present the CREDAL methodology for close readings of data models. We detail our iterative development process and present results of a qualitative evaluation of CREDAL demonstrating its usability, usefulness, and effectiveness in the critical study of data.
- Abstract(参考訳): データモデルは、データの発生とあらゆるデータ駆動システムのために必要である。
実際、あらゆるアルゴリズム、あらゆる機械学習モデル、すべての統計モデル、そして全てのデータベースは、システムが使用できない基礎となるデータモデルを持っています。
したがって、データモデルは、データシステムを引き起こす(物質、社会的、政治的、...)条件を問うのに優れた場所である。
そこで本稿では,文芸批評からインスピレーションを得たデータモデルについて,文芸品をよく読むのと同じ精神で,密接に読み取ることを提案する。
データモデルのクローズリーディングは、物質性、系譜、技術、クローズドな性質、そして技術システムの設計と私たちを結びつける。
文学理論から読み方はないと認識する一方で、身近な読み方に慣れていない者には体系的な指導を行うことが重要である。
これは、コンピュータとデータサイエンスの訓練を受けた人々にとって特に当てはまります。
現在、データモデルを読むための体系的な方法論は存在しない。
このギャップを埋めるために、データモデルのクローズリーディングのためのCREDAL方法論を提案する。
本稿では,CREDALの反復的開発プロセスと,その有用性,有用性,有効性を示す定性的な評価結果について述べる。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Certain and Approximately Certain Models for Statistical Learning [4.318959672085627]
特定のトレーニングデータや対象モデルに対して,不足値を持つデータから,正確なモデルを直接学習することが可能であることを示す。
我々は、理論的に保証された効率的なアルゴリズムを構築し、この必要条件を確認し、計算が不要な場合に正確なモデルを返す。
論文 参考訳(メタデータ) (2024-02-27T22:49:33Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Data Excellence for AI: Why Should You Care [9.421161233914251]
ベンチマークデータセットは、モデルが存在し、運用される世界全体を定義する。
もし「データが新しい石油である」ならば、データ自体がより効率的な使用のために最適化されるような精製工場の作業は依然として欠落しています。
論文 参考訳(メタデータ) (2021-11-19T19:06:03Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。