論文の概要: Toward Architecture-Aware Evaluation Metrics for LLM Agents
- arxiv url: http://arxiv.org/abs/2601.19583v1
- Date: Tue, 27 Jan 2026 13:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:37:22.913196
- Title: Toward Architecture-Aware Evaluation Metrics for LLM Agents
- Title(参考訳): LLMエージェントのアーキテクチャ・アウェア評価基準に向けて
- Authors: Débora Souza, Patrícia Machado,
- Abstract要約: 既存の研究は、プランナー、メモリ、ツールルータ、シェイプエージェントの振る舞いといったアーキテクチャコンポーネントをどのように見落としている。
エージェントコンポーネントを観測可能な振る舞いとそれらを評価可能なメトリクスにリンクする,軽量なアーキテクチャインフォームドアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents are becoming central to software engineering tasks, yet evaluating them remains fragmented and largely model-centric. Existing studies overlook how architectural components, such as planners, memory, and tool routers, shape agent behavior, limiting diagnostic power. We propose a lightweight, architecture-informed approach that links agent components to their observable behaviors and to the metrics capable of evaluating them. Our method clarifies what to measure and why, and we illustrate its application through real world agents, enabling more targeted, transparent, and actionable evaluation of LLM-based agents.
- Abstract(参考訳): LLMベースのエージェントは、ソフトウェアエンジニアリングタスクの中心になっているが、その評価は断片的であり、主にモデル中心である。
既存の研究は、プランナー、メモリ、ツールルータ、形状エージェントの振る舞い、診断能力の制限といったアーキテクチャコンポーネントをどのように見落としている。
エージェントコンポーネントを観測可能な振る舞いとそれらを評価可能なメトリクスにリンクする,軽量なアーキテクチャインフォームドアプローチを提案する。
提案手法は, 実世界のエージェントを介し, LLMをベースとしたエージェントのより標的的, 透過的, 行動可能な評価を可能にする。
関連論文リスト
- Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - Reimagining Agent-based Modeling with Large Language Model Agents via Shachi [16.625794969005966]
大規模言語モデル(LLM)によるマルチエージェントシステムにおける創発的行動の研究は重要な研究課題である。
エージェントのポリシーをコア認知コンポーネントに分解する形式的方法論とモジュラーフレームワークであるShachiを紹介する。
提案手法を総合的な10タスクベンチマークで検証し,新しい科学的探究を通じてその能力を実証する。
論文 参考訳(メタデータ) (2025-09-26T04:38:59Z) - From Language to Action: A Review of Large Language Models as Autonomous Agents and Tool Users [2.8141950037574666]
本稿では,大規模言語モデルを用いた自律型エージェントとツールユーザの開発状況について概説する。
LLMエージェントのアーキテクチャ設計原則を構造化分析し,アプリケーションを単一エージェントおよびマルチエージェントシステムに分割する。
我々はLSMの検証可能な推論、自己改善能力、LSMをベースとしたエージェントのパーソナライズに関する批判的な知見を同定した。
論文 参考訳(メタデータ) (2025-08-24T10:02:51Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。