論文の概要: Automated Interpretability and Feature Discovery in Language Models with Agents
- arxiv url: http://arxiv.org/abs/2605.01555v1
- Date: Sat, 02 May 2026 17:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.829428
- Title: Automated Interpretability and Feature Discovery in Language Models with Agents
- Title(参考訳): エージェントを用いた言語モデルにおける自動解釈可能性と特徴発見
- Authors: Arnau Marin-Llobet, Javier Ferrando,
- Abstract要約: 本稿では,大規模言語モデルの内部機能の説明と発見の両方を自動化する,機械論的解釈性のための自律型マルチエージェントフレームワークを提案する。
エージェント駆動型経験ループは1ショットラベルよりもシャープで、よりファルサブルな説明が得られることを示す。
- 参考スコア(独自算出の注目度): 3.660409142843126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an autonomous multiagent framework for mechanistic interpretability that automates both explaining and finding internal features in large language models. The system runs two coupled loops: (1) explanation refinement, where an agent proposes competing hypotheses and iteratively tests them with targeted prompt controls and a multi-metric evaluation; and (2) feature discovery, where an agent generates prompt sets, constructs a k-nearest-neighbor graph in activation space, and retrieves candidate features using statistical separability and semantic coherence criteria. On Gemma-2 family models and MLP neurons in weight-sparse transformers, our agent improves over one-shot auto-interpretations, discovers language-specific and safety-relevant features, and produces auditable explanation traces, showing that agent-driven empirical loops yield sharper and more falsifiable explanations than one-shot labels.
- Abstract(参考訳): 本稿では,大規模言語モデルの内部機能の説明と発見の両方を自動化する,機械論的解釈性のための自律型マルチエージェントフレームワークを提案する。
本システムは,(1)エージェントが競合する仮説を提示し,対象とするプロンプト制御とマルチメトリック評価で繰り返しテストする説明改良,(2)エージェントがプロンプトセットを生成し,アクティベーション空間内にk-アネレスト近傍グラフを構築し,統計的分離性とセマンティックコヒーレンス基準を用いて候補特徴を検索する特徴発見,の2つの結合ループを実行する。
Gemma-2ファミリーモデルとMLPニューロンのウェイトスパーストランスフォーマーにおいて、エージェントはワンショットの自動解釈を改良し、言語固有の安全関連特徴を発見し、聴覚的説明トレースを生成し、エージェント駆動の経験的ループがワンショットラベルよりもシャープでよりファルシブルな説明をもたらすことを示す。
関連論文リスト
- Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis [4.365760422569902]
我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-12T08:02:54Z) - SAGE: A Service Agent Graph-guided Evaluation Benchmark [27.342044311161654]
本稿では,SAGE(Service Agent Graph-Guided Evaluation)を提案する。
SAGEは構造化されていないSOPを動的ダイアロググラフに形式化し、論理的コンプライアンスの正確な検証を可能にする。
また、モデルが論理的失敗にもかかわらず丁寧な会話ファサードを維持する現象である「共感回復」も観察する。
論文 参考訳(メタデータ) (2026-04-10T12:55:23Z) - When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution [10.973058523304042]
IET(Implicit Execution Tracing)は、メタデータに依存しないフレームワークで、生成したテキストから直接トークンレベルの属性を作成できる。
生成中、エージェント固有のキー付き信号がトークン分布に埋め込まれ、秘密鍵でのみ検出可能な自己記述実行トレースに変換される。
検出時にエージェントハンドオーバポイントを特定し、インタラクショングラフを再構築する。
論文 参考訳(メタデータ) (2026-03-18T07:34:51Z) - LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation [0.0]
本稿では,言語アノテーションを自動化するために,反射型多モデルアーキテクチャを活用する統合プラットフォームLinguistAgentを紹介する。
このシステムは、プロのピアレビュープロセスをシミュレートするために、アノテーションとレビュアーからなるデュアルエージェントワークフローを実装している。
メタファ識別のタスクを例にLinguistAgentの有効性を実証し,トークンレベルをリアルタイムに評価する。
論文 参考訳(メタデータ) (2026-02-05T09:55:19Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。