論文の概要: Pitfalls in Evaluating Interpretability Agents
- arxiv url: http://arxiv.org/abs/2603.20101v1
- Date: Fri, 20 Mar 2026 16:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.230534
- Title: Pitfalls in Evaluating Interpretability Agents
- Title(参考訳): 解釈可能性評価における落とし穴
- Authors: Tal Haklay, Nikhil Prakash, Sana Pandey, Antonio Torralba, Aaron Mueller, Jacob Andreas, Tamar Rott Shaham, Yonatan Belinkov,
- Abstract要約: 我々は,実験を反復的に設計し,仮説を洗練するエージェントシステムを構築した。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を実証している。
- 参考スコア(独自算出の注目度): 91.49742416116635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated interpretability systems aim to reduce the need for human labor and scale analysis to increasingly large models and diverse tasks. Recent efforts toward this goal leverage large language models (LLMs) at increasing levels of autonomy, ranging from fixed one-shot workflows to fully autonomous interpretability agents. This shift creates a corresponding need to scale evaluation approaches to keep pace with both the volume and complexity of generated explanations. We investigate this challenge in the context of automated circuit analysis -- explaining the roles of model components when performing specific tasks. To this end, we build an agentic system in which a research agent iteratively designs experiments and refines hypotheses. When evaluated against human expert explanations across six circuit analysis tasks in the literature, the system appears competitive. However, closer examination reveals several pitfalls of replication-based evaluation: human expert explanations can be subjective or incomplete, outcome-based comparisons obscure the research process, and LLM-based systems may reproduce published findings via memorization or informed guessing. To address some of these pitfalls, we propose an unsupervised intrinsic evaluation based on the functional interchangeability of model components. Our work demonstrates fundamental challenges in evaluating complex automated interpretability systems and reveals key limitations of replication-based evaluation.
- Abstract(参考訳): 自動解釈可能性システムは、人的労働の必要性を減らし、大規模モデルや多様なタスクにスケール分析を提供することを目的としている。
この目標に向けた最近の取り組みは、固定されたワンショットワークフローから完全に自律的な解釈可能性エージェントまで、大きな言語モデル(LLM)を自律性の向上に活用している。
このシフトは、生成された説明のボリュームと複雑さの両方にペースを維持するために評価アプローチをスケールするために必要なものを生み出します。
本稿では,この課題を,特定のタスクを実行する際のモデルコンポーネントの役割を説明する,自動回路解析の文脈で検討する。
そこで我々は,実験を反復的に設計し,仮説を洗練させるエージェントシステムを構築した。
文献中の6つの回路分析タスクにおける人間の専門家による説明に対して評価すると、システムは競争力があるように見える。
人間の専門家による説明は主観的または不完全であり、結果に基づく比較は研究過程を曖昧にし、LSMベースのシステムは、暗記や情報的推測を通じて公表された結果を再現することができる。
これらの落とし穴のいくつかに対処するため、モデルコンポーネントの機能的交換性に基づく教師なし固有の評価を提案する。
我々の研究は、複雑な自動解釈可能性システムを評価する上での根本的な課題を示し、レプリケーションに基づく評価の重要な限界を明らかにする。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - PARC: An Autonomous Self-Reflective Coding Agent for Robust Execution of Long-Horizon Tasks [0.0]
我々は長軸計算タスクの自律実行のための符号化エージェントである PARC を紹介する。
我々は計算科学とデータサイエンスのタスク間でPARCを評価する。
その結果、階層型マルチエージェントシステムと自己評価と自己フィードバックの統合の可能性を強調した。
論文 参考訳(メタデータ) (2025-12-03T08:15:10Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [17.975121612118752]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
我々は,数量やトークン消費,反復的な行動系列,思考,行動,結果のセマンティックコヒーレンスといった重要な軌道特性を同定する。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Learning Causal Models of Autonomous Agents using Interventions [11.351235628684252]
我々は、AIシステムがシミュレータで高レベルの命令シーケンスを実行することができるエージェントアセスメントモジュールの分析を拡張した。
このような原始的なクエリ応答能力は、システムのユーザ解釈可能な因果関係モデルを効率的に導出するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-08-21T21:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。