論文の概要: Tracing the Data Trail: A Survey of Data Provenance, Transparency and Traceability in LLMs
- arxiv url: http://arxiv.org/abs/2601.14311v1
- Date: Mon, 19 Jan 2026 09:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.092835
- Title: Tracing the Data Trail: A Survey of Data Provenance, Transparency and Traceability in LLMs
- Title(参考訳): データトレイルの追跡: LLMにおけるデータの出現、透明性、トレーサビリティに関する調査
- Authors: Richard Hohensinner, Belgin Mutlu, Inti Gabriel Mendoza Estrada, Matej Vukovic, Simone Kopeinik, Roman Kern,
- Abstract要約: この調査は,(1)データ証明,(2)透明性,(3)トレーサビリティの3つの密結合軸に関する過去10年間の研究を合成する。
中心的な貢献は、フィールドのドメインを定義し、対応するアーティファクトをリストアップする提案された分類である。
- 参考スコア(独自算出の注目度): 3.9330282766184683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are deployed at scale, yet their training data life cycle remains opaque. This survey synthesizes research from the past ten years on three tightly coupled axes: (1) data provenance, (2) transparency, and (3) traceability, and three supporting pillars: (4) bias \& uncertainty, (5) data privacy, and (6) tools and techniques that operationalize them. A central contribution is a proposed taxonomy defining the field's domains and listing corresponding artifacts. Through analysis of 95 publications, this work identifies key methodologies concerning data generation, watermarking, bias measurement, data curation, data privacy, and the inherent trade-off between transparency and opacity.
- Abstract(参考訳): 大規模言語モデル(LLM)は大規模にデプロイされるが、トレーニングデータライフサイクルは不透明である。
本調査は,(1)データ証明,(2)透明性,(3)トレーサビリティ,(4)バイアス,(5)データプライバシ,(6)データ操作を行うツールとテクニックの3つの柱について,過去10年間の調査結果を合成する。
中心的な貢献は、フィールドのドメインを定義し、対応するアーティファクトをリストアップする提案された分類である。
95の出版物の分析を通じて、この研究は、データ生成、透かし、バイアス測定、データキュレーション、データのプライバシ、透明性と不透明性の間の固有のトレードオフに関する重要な方法論を特定する。
関連論文リスト
- InfoAffect: A Dataset for Affective Analysis of Infographics [21.63643063062395]
テキストコンテンツと実世界のインフォグラフィックを組み合わせた3.5kサンプル対応InfoAffectデータセットを提案する。
5つの最先端マルチモーダル大言語モデル (MLLM) は両方のモダリティを解析し、その出力をReciprocal Rank Fusion (RRF) アルゴリズムで融合させ、ロバストな影響と信頼を得る。
論文 参考訳(メタデータ) (2025-11-09T14:35:59Z) - A Comprehensive Survey of Synthetic Tabular Data Generation [31.576625554168473]
タブラルデータ(英: Tabular data)は、医療、金融、教育といった現実世界のアプリケーションにおいて、最も一般的で重要なデータフォーマットの1つである。
本調査は,本分野の総合的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-04-23T08:33:34Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Data Hiding with Deep Learning: A Survey Unifying Digital Watermarking
and Steganography [33.12806297686689]
デジタル透かしとステガノグラフィー技術は、機密性のある知的財産を保護し、秘密の通信を可能にするために用いられる。
デジタル透かしとステガノグラフィーをソフトウェア工学で統合し、セキュリティを強化し、リスクを軽減する研究の方向性が提案され、計画されている。
論文 参考訳(メタデータ) (2021-07-20T07:03:23Z) - Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey and
Experimental Study [5.6780397318769245]
3Dセマンティックセグメンテーションは、ロボットおよび自律運転アプリケーションの基本課題である。
最近の研究はディープラーニング技術の利用に重点を置いているが、細かな注釈付き3DLiDARデータセットの開発は非常に労働集約的である。
不十分なデータセットによって引き起こされるパフォーマンスの制限は、データ飢餓問題と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T01:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。