論文の概要: MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2605.26343v1
- Date: Mon, 25 May 2026 21:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.47562
- Title: MechRL: Reinforcement Learning Agents Perform Circuit Discovery for Mechanistic Interpretability
- Title(参考訳): MechRL:機械的解釈性のための回路探索を実現する強化学習エージェント
- Authors: Barsat Khadka,
- Abstract要約: 我々は回路発見を強化学習問題として再放送する。
エージェントは、離散的なアクション空間として、GPT-2の144個のアテンションヘッドを動作させる。
単一のPPOポリシーは、トレーニングタスクと保持された第3タスクの両方において、エピソード単位のオラクルを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability has identified small sets of attention heads that implement specific behaviours in transformer language models, but recovering these circuits typically requires a bespoke analytical pipeline for each new task. We recast circuit discovery as a reinforcement-learning problem. An agent operates over the 144 attention heads of GPT-2 small as a discrete action space; each action triggers a zero-ablation and a contrastive reward that subtracts the ablation's damage to general next-token prediction from its damage to the target task. A single PPO policy, trained on two tasks (induction and IOI) in a vectorised multi-task environment, attains the per-episode oracle on both training tasks and on a held-out third task (docstring completion). Its preferred heads coincide with the canonical heads of established literature on precisely the axes those papers identify as causally non-redundant under single-head ablation; the categories they identify as redundant are correctly de-prioritised by the agent. On the held-out task, best-of-five planning recovers 96\% of the oracle ceiling with no task signal supplied at evaluation. These results indicate that reinforcement learning over causal interventions is a viable, transferable substrate for identifying the single-head bottlenecks of mechanistic circuits, complementary to existing path-patching approaches.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)では、トランスフォーマー言語モデルで特定の振る舞いを実装する小さな注意ヘッドが特定されているが、これらの回路を復元するには、通常、新しいタスクごとに、簡単な分析パイプラインが必要である。
我々は回路発見を強化学習問題として再放送する。
エージェントは、離散的なアクション空間としてGPT−2の144個の注目ヘッドを操作し、各アクションはゼロアブレーションとコントラスト報酬をトリガーし、そのダメージから目標タスクへの一般的な次トーケン予測にアブレーションのダメージを減じる。
ベクトル化されたマルチタスク環境における2つのタスク(インダクションとIOI)に基づいてトレーニングされた単一のPPOポリシーは、トレーニングタスクと保持された第3タスク(ドクストリング完了)の両方において、エピソード単位のオラクルを達成する。
その好まれる頭部は、確立された文献の標準的頭部と一致し、それらの論文が単一頭部のアブレーションの下で因果的に非冗長であると見なされる軸を正確に識別する。
ホールドアウトタスクにおいて、ベスト・オブ・ファイブ・プランニングは、評価時に供給されるタスク信号なしで、オラクル天井の96\%を回復する。
これらの結果から, 因果介入による強化学習は, 既存のパスパッチ手法と相似する, 機械回路の単一ヘッドボトルネックを特定するための, 移動可能な基板であることが示唆された。
関連論文リスト
- Dissecting Jet-Tagger Through Mechanistic Interpretability [0.0]
我々はTop Quark Tagging参照データセットに基づいてトレーニングされたParticle Transformerアーキテクチャの機械論的解釈可能性解析を行う。
ジェットの分類と内部表現の物理的内容の特徴付けに責任がある計算回路を同定する。
論文 参考訳(メタデータ) (2026-05-11T02:11:47Z) - Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning [10.618608207545153]
クラス増分学習(CIL)の最近の拡張手法は、古い特徴を凍結することで破滅的な忘れを効果的に行う。
突発的な特徴相関が この衝突の主な原因で 2つの範囲に現れます
本稿では,CILの機能拡張を導くために,PNSに基づく正則化手法を提案する。
論文 参考訳(メタデータ) (2026-03-10T03:33:33Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Emergence of Minimal Circuits for Indirect Object Identification in Attention-Only Transformers [0.10152838128195467]
我々は、間接オブジェクト識別タスクのシンボリックバージョンにおいて、スクラッチから小さな注意のみのトランスフォーマーを訓練する。
2つのアテンションヘッドしか持たない単一層モデルは、残差と正規化層が欠如しているにもかかわらず、完全なIOI精度を達成する。
2層1頭モデルでは,問合せと問合せの相互作用を通じて,複数の層にまたがる情報を構成することで,同様の性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T22:25:19Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。