Fugu-MT 論文翻訳(概要): Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents

論文の概要: Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents

arxiv url: http://arxiv.org/abs/2502.00510v2
Date: Sun, 16 Feb 2025 12:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.42032
Title: Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents
Title（参考訳）: MVPとは何か? LLMエージェントのモジュール属性に対するゲーム理論評価ベンチマーク
Authors: Yingxuan Yang, Bo Huang, Siyuan Qi, Chao Feng, Haoyi Hu, Yuxuan Zhu, Jinbo Hu, Haoran Zhao, Ziyi He, Xiao Liu, Zongyu Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Yong Yu, Weinan Zhang,
Abstract要約: CapaBenchは、協調ゲーム理論のShapley Valueに基づく評価フレームワークである。エージェントのアーキテクチャ内の個々のモジュールとその相互作用の限界影響を測定する。 CapabilityBenchは、コンポーネントレベルの評価と全体的システムアセスメントのギャップを埋める。
参考スコア（独自算出の注目度）: 37.69474034158126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) agents frameworks often employ modular architectures, incorporating components such as planning, reasoning, action execution, and reflection to tackle complex tasks. However, quantifying the contribution of each module to overall system performance remains a significant challenge, impeding optimization and interpretability. To address this, we introduce CapaBench (Capability-level Assessment Benchmark), an evaluation framework grounded in cooperative game theory's Shapley Value, which systematically measures the marginal impact of individual modules and their interactions within an agent's architecture. By replacing default modules with test variants across all possible combinations, CapaBench provides a principle method for attributing performance contributions. Key contributions include: (1) We are the first to propose a Shapley Value-based methodology for quantifying the contributions of capabilities in LLM agents; (2) Modules with high Shapley Values consistently lead to predictable performance gains when combined, enabling targeted optimization; and (3) We build a multi-round dataset of over 1,500 entries spanning diverse domains and practical task scenarios, enabling comprehensive evaluation of agent capabilities. CapaBench bridges the gap between component-level evaluation and holistic system assessment, providing actionable insights for optimizing modular LLM agents and advancing their deployment in complex, real-world scenarios.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントフレームワークは、計画、推論、アクション実行、リフレクションといったコンポーネントを組み込んで複雑なタスクに対処する。しかし、システム全体のパフォーマンスに対する各モジュールの貢献を定量化することは、最適化と解釈可能性を妨げる重要な課題である。これを解決するために,協調ゲーム理論のShapley Valueに基づく評価フレームワークであるCapaBench(Capability-level Assessment Benchmark)を紹介した。 CapaBenchは、デフォルトのモジュールをすべての可能な組み合わせでテストの変種に置き換えることによって、パフォーマンスコントリビューションに寄与する原則的な方法を提供する。主なコントリビューションとしては,(1) LLMエージェントの能力の貢献度を定量化するShapley Valueベースの方法論を提案すること,(2) 高いShapley値を持つモジュールは,組み合わせた場合の予測可能なパフォーマンス向上につながること,(3) 多様なドメインと実用的なタスクシナリオにまたがる1500以上のエントリからなるマルチラウンドデータセットを構築し,エージェント能力の包括的な評価を可能にすること,などがあげられる。 CapaBenchは、コンポーネントレベルの評価と全体的システムアセスメントのギャップを埋め、モジュール化されたLLMエージェントを最適化し、複雑な実世界のシナリオへの展開を進めるための実用的な洞察を提供する。

関連論文リスト

Workflow-R1: Group Sub-sequence Policy Optimization for Multi-turn Workflow Construction [25.928675237308074]
本稿では,ワークフロー構築を多ターン,自然言語に基づく逐次意思決定プロセスとして再構成するフレームワークであるグラデーション-R1を提案する。 GSsPOは、多ターンエージェントシーケンシャル意思決定タスクの幅広いクラスに一般化可能な構造対応RLアルゴリズムとして機能する。
論文参考訳（メタデータ） (2026-02-01T12:44:59Z)
Explainable Verification of Hierarchical Workflows Mined from Event Logs with Shapley Values [0.0]
マイニングされたプロセスツリーを論理的仕様に変換し、自動定理証明器を用いて満足度、生存性、安全性などの特性を解析する。この記事では、ソフトウェアエンジニアリングプラクティスに直接関係するワークフロー分析、コンプライアンスチェックのサポート、プロセス最適化、冗長性低減、次世代プロセスマイニングツールの設計など、新たな方向性を概説する。
論文参考訳（メタデータ） (2025-12-10T11:57:08Z)
DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文参考訳（メタデータ） (2025-09-30T10:36:23Z)
Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-22T22:42:51Z)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。 Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T09:46:50Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文参考訳（メタデータ） (2025-05-20T07:08:49Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文参考訳（メタデータ） (2025-01-25T14:24:50Z)
Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-21T12:06:21Z)
Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文参考訳（メタデータ） (2025-01-14T04:35:37Z)
Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。 Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文参考訳（メタデータ） (2024-11-02T09:03:23Z)
Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文参考訳（メタデータ） (2024-10-19T17:27:38Z)
Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Towards a Robust Retrieval-Based Summarization System [11.747998334533776]
本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークです。 LogiSummによって特定された制限に基づいて、トレーニング対話を作成し、堅牢性を高めるためのモデルを微調整する包括的システム SummRAG を開発した。
論文参考訳（メタデータ） (2024-03-29T00:14:46Z)
ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文参考訳（メタデータ） (2023-11-05T16:01:40Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文参考訳（メタデータ） (2021-04-28T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。