論文の概要: Estimating the Empowerment of Language Model Agents
- arxiv url: http://arxiv.org/abs/2509.22504v2
- Date: Tue, 30 Sep 2025 01:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.383859
- Title: Estimating the Empowerment of Language Model Agents
- Title(参考訳): 言語モデルエージェントの能力評価
- Authors: Jinyeop Song, Jeff Gore, Max Kleiman-Weiner,
- Abstract要約: EELMAはマルチターンテキストインタラクションから効果的なエンパワーメントを近似するアルゴリズムである。
我々はEELMAを言語ゲームとスケールアップしたWebブラウザのシナリオの両方で検証する。
- 参考スコア(独自算出の注目度): 4.9877302321739725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language model (LM) agents become more capable and gain broader access to real-world tools, there is a growing need for scalable evaluation frameworks of agentic capability. However, conventional benchmark-centric evaluations are costly to design and require human designers to come up with valid tasks that translate into insights about general model capabilities. In this work, we propose information-theoretic evaluation based on empowerment, the mutual information between an agent's actions and future states, as an open-ended method for evaluating LM agents. We introduce EELMA (Estimating Empowerment of Language Model Agents), an algorithm for approximating effective empowerment from multi-turn text interactions. We validate EELMA on both language games and scaled-up realistic web-browsing scenarios. We find that empowerment strongly correlates with average task performance, characterize the impact of environmental complexity and agentic factors such as chain-of-thought, model scale, and memory length on estimated empowerment, and that high empowerment states and actions are often pivotal moments for general capabilities. Together, these results demonstrate empowerment as an appealing general-purpose metric for evaluating and monitoring LM agents in complex, open-ended settings.
- Abstract(参考訳): 言語モデル(LM)エージェントがより有能になり、現実世界のツールに広くアクセスできるようになるにつれ、エージェント機能のスケーラブルな評価フレームワークの必要性が高まっている。
しかし、従来のベンチマーク中心の評価は設計にコストがかかり、人間設計者は一般的なモデル機能に関する洞察に変換する有効なタスクを思いつく必要がある。
本研究では,LMエージェントの評価方法として,エージェントの行動と将来の状態の相互情報に対するエンパワーメントに基づく情報理論評価を提案する。
EELMA(Estimating Empowerment of Language Model Agents)は,マルチターンテキストインタラクションから効果的なエンパワーメントを近似するアルゴリズムである。
我々はEELMAを言語ゲームとスケールアップしたWebブラウザのシナリオの両方で検証する。
我々は、エンパワーメントが平均的なタスク性能と強く相関し、チェインオブシント、モデルスケール、メモリ長といった環境複雑さとエージェント要因が推定エンパワーメントに与える影響を特徴付け、高エンパワーメント状態とアクションが一般的な機能にとって重要な瞬間であることを見出した。
これらの結果は、複雑なオープンエンド環境でのLMエージェントの評価および監視のための魅力的な汎用指標としてのエンパワーメントを示す。
関連論文リスト
- JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - MIRAI: Evaluating LLM Agents for Event Forecasting [22.524158637977]
我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。
本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。
まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
論文 参考訳(メタデータ) (2024-07-01T12:22:46Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。