論文の概要: DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.09424v1
- Date: Sat, 12 Jul 2025 23:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.16767
- Title: DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models
- Title(参考訳): DATE-LM:大規模言語モデルのベンチマークデータ属性評価
- Authors: Cathy Jiao, Yijun Pan, Emily Xiao, Daisy Sheng, Niket Jain, Hanzhang Zhao, Ishita Dasgupta, Jiaqi W. Ma, Chenyan Xiong,
- Abstract要約: DATE-LMは、言語モデルにおけるデータ属性手法を評価するためのベンチマークである。
データ選択のトレーニング、毒性/バイアスフィルタリング、事実帰属という3つの重要なタスクを通じて、属性の品質を測定する。
以上の結果から,全てのタスクにおいて単一手法が支配的ではなく,データ属性手法はより単純なベースラインとのトレードオフを持ち,メソッド性能はタスク固有の評価設計に敏感であることがわかった。
- 参考スコア(独自算出の注目度): 17.67098120469538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data attribution methods quantify the influence of training data on model outputs and are becoming increasingly relevant for a wide range of LLM research and applications, including dataset curation, model interpretability, data valuation. However, there remain critical gaps in systematic LLM-centric evaluation of data attribution methods. To this end, we introduce DATE-LM (Data Attribution Evaluation in Language Models), a unified benchmark for evaluating data attribution methods through real-world LLM applications. DATE-LM measures attribution quality through three key tasks -- training data selection, toxicity/bias filtering, and factual attribution. Our benchmark is designed for ease of use, enabling researchers to configure and run large-scale evaluations across diverse tasks and LLM architectures. Furthermore, we use DATE-LM to conduct a large-scale evaluation of existing data attribution methods. Our findings show that no single method dominates across all tasks, data attribution methods have trade-offs with simpler baselines, and method performance is sensitive to task-specific evaluation design. Finally, we release a public leaderboard for quick comparison of methods and to facilitate community engagement. We hope DATE-LM serves as a foundation for future data attribution research in LLMs.
- Abstract(参考訳): データ属性法は、トレーニングデータがモデル出力に与える影響を定量化し、データセットのキュレーション、モデル解釈可能性、データ評価など、幅広いLLMの研究や応用に益々関係している。
しかし、データ帰属手法の体系的なLCM中心の評価には、依然として重大なギャップが残っている。
そこで本研究では,実世界のLLMアプリケーションによるデータ属性評価手法の統一ベンチマークであるDATE-LM(Data Attribution Evaluation in Language Models)を紹介する。
DATE-LMは、データ選択のトレーニング、毒性/バイアスフィルタリング、事実帰属という3つの重要なタスクを通じて、属性品質を測定する。
我々のベンチマークは使いやすく設計されており、研究者は様々なタスクやLLMアーキテクチャにまたがって大規模な評価を設定および実行することができる。
さらに、DATE-LMを用いて、既存のデータ属性法を大規模に評価する。
以上の結果から,全てのタスクにおいて単一手法が支配的ではなく,データ属性手法はより単純なベースラインとのトレードオフを持ち,メソッド性能はタスク固有の評価設計に敏感であることがわかった。
最後に,手法を素早く比較し,コミュニティの関与を促進するための公開リーダボードをリリースする。
我々は,DATE-LMが今後のLLMにおけるデータ帰属研究の基盤となることを願っている。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity [17.723293304671877]
我々は、パーソナライズされたツール呼び出しを評価するための新しいベンチマークETAPPを紹介する。
評価精度を向上させるために,キーポイントに基づく評価手法を提案する。
好み設定とキーポイントに基づく評価手法の有効性も検証した。
論文 参考訳(メタデータ) (2025-03-02T07:36:22Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。
DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。