論文の概要: Data-Centric Interpretability for LLM-based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.05183v1
- Date: Thu, 05 Feb 2026 01:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.69678
- Title: Data-Centric Interpretability for LLM-based Multi-Agent Reinforcement Learning
- Title(参考訳): LLMに基づくマルチエージェント強化学習のためのデータ中心の解釈可能性
- Authors: John Yan, Michael Yu, Yuqi Sun, Alexander Duffy, Tyler Marques, Matthew Lyle Olson,
- Abstract要約: フルストレス外交の高度環境から大規模強化学習訓練を実施する。
本稿では,SAE特徴をトレーニング力学に関する解釈可能な仮説にグループ化するメタオートインタプリタを紹介する。
私たちは、主観的に興味深く、一見有用なSAE機能でさえ、人間にとって役に立たないよりも悪いかもしれないことに気付きました。
- 参考スコア(独自算出の注目度): 39.84288631342219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly trained in complex Reinforcement Learning, multi-agent environments, making it difficult to understand how behavior changes over training. Sparse Autoencoders (SAEs) have recently shown to be useful for data-centric interpretability. In this work, we analyze large-scale reinforcement learning training runs from the sophisticated environment of Full-Press Diplomacy by applying pretrained SAEs, alongside LLM-summarizer methods. We introduce Meta-Autointerp, a method for grouping SAE features into interpretable hypotheses about training dynamics. We discover fine-grained behaviors including role-playing patterns, degenerate outputs, language switching, alongside high-level strategic behaviors and environment-specific bugs. Through automated evaluation, we validate that 90% of discovered SAE Meta-Features are significant, and find a surprising reward hacking behavior. However, through two user studies, we find that even subjectively interesting and seemingly helpful SAE features may be worse than useless to humans, along with most LLM generated hypotheses. However, a subset of SAE-derived hypotheses are predictively useful for downstream tasks. We further provide validation by augmenting an untrained agent's system prompt, improving the score by +14.2%. Overall, we show that SAEs and LLM-summarizer provide complementary views into agent behavior, and together our framework forms a practical starting point for future data-centric interpretability work on ensuring trustworthy LLM behavior throughout training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な強化学習、マルチエージェント環境において、ますます訓練されている。
スパースオートエンコーダ(SAE)は、最近データ中心の解釈に有用であることが示されている。
本研究では, LLM-summarizer法とともに, 事前学習されたSAEを適用して, フルストレス外交の高度環境から大規模強化学習訓練を行う。
本稿では,SAE特徴をトレーニング力学に関する解釈可能な仮説にグループ化するメタオートインタプリタを紹介する。
ロールプレイングパターン,退化アウトプット,言語スイッチング,高レベルの戦略行動,環境固有のバグなど,きめ細かい行動を検出する。
自動評価により,発見されたSAE Meta-Featuresの90%が重要であることが確認され,驚くべきハッキング行動が得られた。
しかし、2つのユーザー研究を通して、主観的に興味深く、一見有用なSAE機能でさえ、ほとんどのLSMが生成する仮説とともに、人間にとって役に立たないよりも悪いかもしれないことがわかりました。
しかし、SAE由来の仮説のサブセットは下流のタスクに予測的に有用である。
さらに、トレーニングされていないエージェントのシステムプロンプトを増強し、スコアを+14.2%向上させることによる検証も行う。
全体として,SAE と LLM-summarizer がエージェントの動作を補完する視点を提供しており,我々のフレームワークは,トレーニングを通じて信頼性の高い LLM の動作を保証するためのデータ中心の解釈可能性作業の実践的な出発点となっている。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。