論文の概要: Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients
- arxiv url: http://arxiv.org/abs/2603.14665v1
- Date: Sun, 15 Mar 2026 23:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.949127
- Title: Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients
- Title(参考訳): グラディエント原子:訓練勾配のスパース分解によるモデル行動の発見・属性・ステアリング
- Authors: J Rosser,
- Abstract要約: トレーニングデータ属性(TDA)メソッドは、モデルの振る舞いにどのトレーニングドキュメントが責任を持つかを問う。
この文書単位のフレーミングは、微調整が実際にどのように機能するかと根本的には一致していない、と私たちは主張する。
ドキュメントごとのトレーニング勾配をスパースコンポーネントに分解する、教師なしの方法であるGradient Atomsを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data attribution (TDA) methods ask which training documents are responsible for a model behavior. We argue that this per-document framing is fundamentally mismatched to how fine-tuning actually works: models often learn broad concepts shared across many examples. Existing TDA methods are supervised -- they require a query behavior, then score every training document against it -- making them both expensive and unable to surface behaviors the user did not think to ask about. We present Gradient Atoms, an unsupervised method that decomposes per-document training gradients into sparse components ("atoms") via dictionary learning in a preconditioned eigenspace. Among the 500 discovered atoms, the highest-coherence ones recover interpretable task-type behaviors -- refusal, arithmetic, yes/no classification, trivia QA -- without any behavioral labels. These atoms double as effective steering vectors: applying them as weight-space perturbations produces large, controllable shifts in model behavior (e.g., bulleted-list generation 33% to 94%; systematic refusal 50% to 0%). The method requires no query--document scoring stage, and scales independently of the number of query behaviors of interest. Code is here: https://github.com/jrosseruk/gradient_atoms
- Abstract(参考訳): トレーニングデータ属性(TDA)メソッドは、モデルの振る舞いにどのトレーニングドキュメントが責任を持つかを問う。
このドキュメント単位のフレーミングは、ファインチューニングが実際にどのように機能するかと根本的には一致していない、と私たちは主張する。
既存のTDAメソッドは -- クエリの動作が必要で、それに対してすべてのトレーニングドキュメントをスコアする -- 管理されています。
本稿では,文書ごとのトレーニング勾配を,事前条件付き固有空間における辞書学習を通じてスパースコンポーネント(原子)に分解する教師なしの手法であるGradient Atomsを提案する。
発見された500個の原子のうち、最も高いコヒーレンスな原子は、行動ラベルなしで解釈可能なタスクタイプの挙動(拒絶、算術、イエス/ノー分類、トリビアQA)を回復する。
これらの原子は効果的なステアリングベクトルとして二重化され、重み空間の摂動として適用すると、モデル行動の大きな制御可能なシフトが生じる(例えば、弾丸リストの生成は33%から94%、体系的には50%から0%)。
この手法は問合せ文書の採点段階を必要とせず、興味のある問合せ行動の数とは無関係にスケールする。
コードはここにある。 https://github.com/jrosseruk/gradient_atoms
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning [62.78292142632335]
CIL(Class-Incremental Learning)は、古いクラスを忘れずに、新しいクラスの知識を継続的に獲得するモデルを必要とする。
既存の作業は、モデルを調整するために軽量コンポーネントを活用することを目指している。
従来の知識を忘れないようにモデルを救うため, モーデル手術(MOS)を提案する。
論文 参考訳(メタデータ) (2024-12-12T16:57:20Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - First is Better Than Last for Language Data Influence [44.907420330002815]
我々は、TracIn-WEが、最終層に適用される他のデータ影響手法を著しく上回っていることを示す。
また、TracIn-WEは、トレーニング入力全体のレベルだけでなく、トレーニング入力内の単語のレベルでもスコアを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-24T00:48:29Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Feed-Forward On-Edge Fine-tuning Using Static Synthetic Gradient Modules [35.92284329679786]
組み込みデバイス上でのディープラーニングモデルのトレーニングは、一般的に避けられる。
本研究では,すべてのアクティベーションを格納するために必要なメモリ容量の削減に焦点をあてる。
提案手法は標準のバックプロパゲーションと同等の結果が得られた。
論文 参考訳(メタデータ) (2020-09-21T08:27:01Z) - Estimating Training Data Influence by Tracing Gradient Descent [21.94989239842377]
TracInは、モデルの予測に対するトレーニング例の影響を計算する。
TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
論文 参考訳(メタデータ) (2020-02-19T22:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。