論文の概要: DebugLM: Learning Traceable Training Data Provenance for LLMs
- arxiv url: http://arxiv.org/abs/2603.17884v1
- Date: Wed, 18 Mar 2026 16:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.813722
- Title: DebugLM: Learning Traceable Training Data Provenance for LLMs
- Title(参考訳): DebugLM: LLMのトレーサブルトレーニングデータ前処理を学習する
- Authors: Wenjie Jacky Mo, Qin Liu, Xiaofei Wen, Wenxuan Zhou, Zhe Zhao, Muhao Chen,
- Abstract要約: DebugLMは、大規模な言語モデルに組み込みのデータプロファイランスを提供するフレームワークである。
モデルは、応答と、責任あるデータセットを示すユニークなタグを関連付けることを学習する。
この機能に基づいて、DebugLMはターゲットとなるテストタイムの修復をサポートする。
- 参考スコア(独自算出の注目度): 35.02875995546494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are trained through multi-stage pipelines over heterogeneous data sources, yet developers lack a principled way to pinpoint the specific data responsible for an observed behavior. This lack of observability reduces debugging to reactive patching and makes failures prone to recur under distribution shift or subsequent model updates. To address this limitation, we propose DebugLM, a framework that equips LLMs with built-in data provenance, enabling them to explicitly trace the origins of their behaviors to specific training data sources. Specifically, the model learns to associate its responses with unique provenance tags that indicate the responsible dataset, empowering developers to precisely identify where undesirable behaviors are learned. Building on this capability, DebugLM further supports targeted test-time remediation, enabling developers to selectively trigger targeted refusal for specified data sources without retraining or modifying model parameters. Experiments demonstrate that DebugLM provides accurate behavior tracing in multi-stage training pipelines and effective test-time remediation while preserving the general utility of the model.
- Abstract(参考訳): 大きな言語モデル(LLM)は、異種データソース上のマルチステージパイプラインを通じてトレーニングされるが、開発者は観察された振る舞いに責任のある特定のデータを特定するための原則的な方法がない。
この可観測性の欠如は、デバッグをリアクティブパッチに還元し、分散シフトやその後のモデル更新で障害が再帰しにくくする。
この制限に対処するため,我々は,LDMにデータプロファイランスを組み込んだフレームワークであるDebugLMを提案し,その振る舞いの起源を特定のトレーニングデータソースに明示的にトレースすることを可能にする。
具体的には、モデルは応答を、責任あるデータセットを示すユニークなプロファイランスタグに関連付けることを学び、開発者は望ましくない振る舞いが学習された場所を正確に特定することを可能にする。
この機能に基づいて、DebugLMはさらに、ターゲットとするテストタイムの修復をサポートし、開発者がモデルパラメータをリトレーニングしたり修正したりすることなく、指定されたデータソースに対するターゲットの拒絶を選択的にトリガーできる。
実験によると、DebugLMはマルチステージのトレーニングパイプラインで正確な振る舞いの追跡と、モデルの汎用性を保ちながら効率的なテストタイムの修復を提供する。
関連論文リスト
- Rendering Data Unlearnable by Exploiting LLM Alignment Mechanisms [3.648393062009244]
大規模言語モデル(LLM)は、大規模で異質なテキストコーパスでますます訓練されている。
これは、モデルトレーニング中にプロプライエタリまたは個人データの使用が許可されていないという深刻な懸念を引き起こす。
本研究では, LLM に読み書き不能なテキストを描画する新しいデータレベルディフェンスである Disclaimer Injection を提案する。
論文 参考訳(メタデータ) (2026-01-06T20:34:15Z) - Training Flow Matching Models with Reliable Labels via Self-Purification [6.131772929312606]
本稿では,フローマッチングフレームワーク内で信頼できないデータをフィルタリングする手法として,SPFM(Self-Purifying Flow Matching)を提案する。
SPFMは、トレーニングプロセス中にモデル自体を使用して不審なデータを識別し、事前訓練されたモデルや追加モジュールの必要性を回避します。
実験の結果,SPFMでトレーニングしたモデルでは,ノイズラベルでトレーニングした場合でも,特定条件に正確に準拠するサンプルが生成されることがわかった。
論文 参考訳(メタデータ) (2025-09-23T14:43:27Z) - Logical Reasoning with Outcome Reward Models for Test-Time Scaling [10.795521518273214]
帰納的推論のためのORM(Outcome Reward Models)のセットを提示する。
ORMのトレーニングには、主にChain-of-Thought(CoT)を使って、単一のサンプルと複数のサンプルを使ってデータを生成します。
また、ORMのトレーニングデータセットでカバーされるエラーの種類をさらに拡大するための新しい戦術を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:08:43Z) - Aligning Language Models with Observational Data: Opportunities and Risks from a Causal Perspective [0.0]
本研究では,観測データを用いた大規模言語モデルの微調整の課題と機会について検討する。
観察結果が貴重な監視を提供する一方で、そのようなデータを直接微調整することで、素早い相関関係を学習できることが示される。
報奨信号から既知の共同創設者の効果を明示的に除去する手法であるDeconfoundLMを提案する。
論文 参考訳(メタデータ) (2025-05-30T18:44:09Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - SIDE: Surrogate Conditional Data Extraction from Diffusion Models [32.18993348942877]
textbfSurrogate condItional Data extract (SIDE) は、データ駆動型サロゲート条件を構築し、任意のDPMからターゲット抽出を可能にするフレームワークである。
SIDEは、いわゆる安全無条件モデルからトレーニングデータを抽出し、条件付きモデルであってもベースラインアタックより優れていることを示す。
我々の研究は、DPMの脅威状況を再定義し、厳密な条件付けを基本的な脆弱性として確立し、モデルプライバシ評価のための新しいより強力なベンチマークを設定します。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - How Data Inter-connectivity Shapes LLMs Unlearning: A Structural Unlearning Perspective [29.924482732745954]
既存のアプローチでは、忘れられるべきデータポイントは独立であり、接続性を無視していると仮定している。
構造データセットをコンパイルする手法であるPISTOLを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。