論文の概要: A Human-Centric Framework for Data Attribution in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.10995v1
- Date: Wed, 11 Feb 2026 16:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.172675
- Title: A Human-Centric Framework for Data Attribution in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるデータ帰属のための人間中心フレームワーク
- Authors: Amelie Wührl, Mattes Ruckdeschel, Kyle Lo, Anna Rogers,
- Abstract要約: 我々は、より広範なデータ経済における属性問題に対応する、人間中心のデータ属性フレームワークに貢献する。
クリエイティブな筆記支援やファクトチェックなど、属性の特定のユースケースを指定できる。
提案手法は、データ帰属に関する方法論的NLP作業、政策介入に関するガバナンス作業、クリエーターインセンティブの経済分析とを橋渡しする。
- 参考スコア(独自算出の注目度): 25.623413344319506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current Large Language Model (LLM) ecosystem, creators have little agency over how their data is used, and LLM users may find themselves unknowingly plagiarizing existing sources. Attribution of LLM-generated text to LLM input data could help with these challenges, but so far we have more questions than answers: what elements of LLM outputs require attribution, what goals should it serve, how should it be implemented? We contribute a human-centric data attribution framework, which situates the attribution problem within the broader data economy. Specific use cases for attribution, such as creative writing assistance or fact-checking, can be specified via a set of parameters (including stakeholder objectives and implementation criteria). These criteria are up for negotiation by the relevant stakeholder groups: creators, LLM users, and their intermediaries (publishers, platforms, AI companies). The outcome of domain-specific negotiations can be implemented and tested for whether the stakeholder goals are achieved. The proposed approach provides a bridge between methodological NLP work on data attribution, governance work on policy interventions, and economic analysis of creator incentives for a sustainable equilibrium in the data economy.
- Abstract(参考訳): 現在のLarge Language Model (LLM)エコシステムでは、クリエーターはデータの使い方に関するエージェンシーをほとんど持っていない。
LLM生成したテキストからLLMの入力データへの貢献はこれらの課題に役立ちますが、これまでのところ、LCM出力のどの要素が属性を必要とするのか、どのような目標を提供するべきなのか、どのように実装されるべきなのか、という質問の方が多いのです。
我々は、より広範なデータ経済における属性問題に対応する、人間中心のデータ属性フレームワークに貢献する。
創造的な執筆支援やファクトチェックのような属性の特定のユースケースは、一連のパラメータ(利害関係者の目的や実施基準を含む)によって指定することができる。
これらの基準は、クリエーター、LLMユーザ、仲介者(パブリッシャ、プラットフォーム、AI企業)など、関係するステークホルダグループによる交渉のためのものだ。
ドメイン固有の交渉の結果は、ステークホルダーのゴールが達成されるかどうかを検証し、検証することができる。
提案手法は,データ属性に関する方法論的NLP作業,政策介入に関するガバナンス作業,データ経済における持続可能な均衡のための創造的インセンティブの経済分析の橋渡しとなる。
関連論文リスト
- Evaluating LLM-Contaminated Crowdsourcing Data Without Ground Truth [18.069595635842557]
クラウドソーシングワーカーによる大規模言語モデル(LLM)は、人間の入力を反映するデータセットに挑戦する。
LLMの共謀を考慮に入れたクラウドソーシングモデルの下で,理論的保証付き学習自由スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-06-08T04:38:39Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Large Language Models: An Applied Econometric Framework [1.348318541691744]
我々はこの問題に答えるための計量的枠組みを開発する。
LLMのトレーニングデータセットと研究者のサンプルの間に「漏れがない」という条件下では、予測問題にLLMを使用することは有効である。
これらの要件は厳密であり、それらが破られると、LLMの制限は信頼できない経験的推定をもたらす。
論文 参考訳(メタデータ) (2024-12-09T22:37:48Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。