論文の概要: Accountability Attribution: Tracing Model Behavior to Training Processes
- arxiv url: http://arxiv.org/abs/2506.00175v1
- Date: Fri, 30 May 2025 19:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.481308
- Title: Accountability Attribution: Tracing Model Behavior to Training Processes
- Title(参考訳): アカウンタビリティの属性:トレーニングプロセスにおけるモデル行動の追跡
- Authors: Shichang Zhang, Hongzhe Du, Karim Saraipour, Jiaqi W. Ma, Himabindu Lakkaraju,
- Abstract要約: AI開発パイプラインは、複数のステージ事前トレーニング、微調整ラウンド、その後の適応やアライメント、各ステージ内の多数のモデル更新ステップを含むことが多い。
これは、デプロイされたモデルが成功したり失敗したり、どのステージが責任を負い、どの程度まで責任を負うかという、説明責任に関する重要な疑問を提起する。
トレーニングプロセスの特定の段階に遡るモデル行動の追跡を目的とした,アカウンタビリティ帰属(countability attribution)の問題を提起する。
- 参考スコア(独自算出の注目度): 20.261750156630463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI development pipelines often involve multiple stages-pretraining, fine-tuning rounds, and subsequent adaptation or alignment-with numerous model update steps within each stage. This raises a critical question of accountability: when a deployed model succeeds or fails, which stage is responsible, and to what extent? We pose the problem of accountability attribution, which aims to trace model behavior back to specific stages of the training process. To address this, we propose a general framework that answers counterfactual questions about stage effects: how would the model behavior have changed if the updates from a training stage had not been executed?. Within this framework, we introduce estimators based on first-order approximations that efficiently quantify the stage effects without retraining. Our estimators account for both the training data and key aspects of optimization dynamics, including learning rate schedules, momentum, and weight decay. Empirically, we demonstrate that our approach identifies training stages accountable for specific behaviors, offering a practical tool for model analysis and a step toward more accountable AI development.
- Abstract(参考訳): 現代のAI開発パイプラインは、複数のステージ事前学習、微調整ラウンド、その後の適応やアライメント、各ステージ内の多数のモデル更新ステップを含むことが多い。
これは、デプロイされたモデルが成功したり失敗したり、どのステージが責任を負い、どの程度まで責任を負うかという、説明責任に関する重要な疑問を提起する。
トレーニングプロセスの特定の段階に遡るモデル行動の追跡を目的とした,アカウンタビリティ帰属(countability attribution)の問題を提起する。
そこで本研究では,学習段階からの更新が実行されなかった場合,モデル行動はどのように変化したのかという,ステージ効果に関する反実的な疑問に答える一般的なフレームワークを提案する。
と。
本フレームワークでは,1次近似に基づく推定器を導入し,再学習せずに効率よくステージ効果を定量化する。
我々の推定器は、学習率のスケジュール、運動量、体重減少など、最適化力学のトレーニングデータと鍵となる側面の両方を考慮に入れている。
実験的に、我々の手法は特定の行動に責任を負う訓練段階を特定し、モデル分析のための実践的なツールを提供し、より説明可能なAI開発に向けたステップを提供する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks [37.278707106871295]
プレトレーニング中にモデルが学習する基礎的能力に微調整がどう影響するかを考察する。
微調整が基礎となるモデル能力を変えることは滅多にない。
また、微調整により、意図せずにモデルの安全ラッパーを除去できることも示している。
論文 参考訳(メタデータ) (2023-11-21T18:51:04Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。