Fugu-MT 論文翻訳(概要): Agent-as-a-Judge: Evaluate Agents with Agents

論文の概要: Agent-as-a-Judge: Evaluate Agents with Agents

arxiv url: http://arxiv.org/abs/2410.10934v2
Date: Wed, 16 Oct 2024 17:54:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.417062
Title: Agent-as-a-Judge: Evaluate Agents with Agents
Title（参考訳）: エージェント・アズ・ア・ジャッジ:エージェントによるエージェントの評価
Authors: Mingchen Zhuge, Changsheng Zhao, Dylan Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber,
Abstract要約: 本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
参考スコア（独自算出の注目度）: 61.33974108405561
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contemporary evaluation techniques are inadequate for agentic systems. These approaches either focus exclusively on final outcomes -- ignoring the step-by-step nature of agentic systems, or require excessive manual labour. To address this, we introduce the Agent-as-a-Judge framework, wherein agentic systems are used to evaluate agentic systems. This is an organic extension of the LLM-as-a-Judge framework, incorporating agentic features that enable intermediate feedback for the entire task-solving process. We apply the Agent-as-a-Judge to the task of code generation. To overcome issues with existing benchmarks and provide a proof-of-concept testbed for Agent-as-a-Judge, we present DevAI, a new benchmark of 55 realistic automated AI development tasks. It includes rich manual annotations, like a total of 365 hierarchical user requirements. We benchmark three of the popular agentic systems using Agent-as-a-Judge and find it dramatically outperforms LLM-as-a-Judge and is as reliable as our human evaluation baseline. Altogether, we believe that Agent-as-a-Judge marks a concrete step forward for modern agentic systems -- by providing rich and reliable reward signals necessary for dynamic and scalable self-improvement.
Abstract（参考訳）: 現代評価技術はエージェントシステムには不十分である。これらのアプローチは、エージェントシステムのステップバイステップの性質を無視したり、過度の手作業を必要とする、最終的な結果にのみフォーカスする。そこで,エージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを導入し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。コード生成のタスクにエージェント・アズ・ア・ジャッジを適用します。既存のベンチマークの問題を克服し、Agent-as-a-Judge用の概念実証テストベッドを提供するために、55の自動化AI開発タスクの新たなベンチマークであるDevAIを提案する。これには、合計365の階層的ユーザ要件など、リッチなマニュアルアノテーションが含まれている。我々は,エージェント・アズ・ア・ジャッジを用いたエージェントシステムの3つのベンチマークを行い,LLM・ア・ジャッジを劇的に上回り,人間の評価基準と同じくらい信頼性が高いことを示した。エージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)は、動的でスケーラブルな自己改善に必要な、リッチで信頼性の高い報酬信号を提供することによって、現代のエージェントシステムにとって、具体的な一歩であると考えています。

関連論文リスト

SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文参考訳（メタデータ） (2025-07-03T23:44:50Z)
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems [2.462408812529728]
本総説では, LLMに基づくエージェントマルチエージェントシステム (AMAS) の文脈における, textbfTrust, Risk, and Security Management (TRiSM) の構造解析について述べる。まず、エージェントAIの概念的基礎を調べ、従来のAIエージェントとアーキテクチャ的区別を強調します。次に、説明可能性、モデルOps、セキュリティ、プライバシ、ガバナンスの4つの主要な柱を中心に構成された、エージェントAIのためのAI TRiSMフレームワークを適応して拡張します。
論文参考訳（メタデータ） (2025-06-04T16:26:11Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
AutoAgent: A Fully-Automated and Zero-Code Framework for LLM Agents [4.57755315319748]
大規模言語モデル (LLM) エージェントはタスクの自動化とインテリジェントな意思決定において顕著な能力を示した。これらのフレームワークは、主に開発者に対して広範な技術的専門知識を提供する。世界の人口の0.03%のみが必要なプログラミングスキルを持っている。
論文参考訳（メタデータ） (2025-02-09T16:53:56Z)
The AI Agent Index [8.48525754659057]
エージェントAIシステムは、人間の関与が限定された複雑なタスクを計画し実行することができる。現在、エージェントシステムの技術コンポーネント、目的の用途、安全性の特徴を文書化するための構造化されたフレームワークは存在しない。 AI Agent Indexは、現在デプロイされているエージェントAIシステムに関する情報をドキュメント化する最初の公開データベースである。
論文参考訳（メタデータ） (2025-02-03T18:59:13Z)
Free Agent in Agent-Based Mixture-of-Experts Generative AI Framework [0.0]
強化学習自由エージェント (Reinforcement Learning Free Agent, RLFA) アルゴリズムは、永続的な過パフォーマンスを示すエージェントを検出し、除去するための報酬に基づくメカニズムを導入する。第一のユースケースは不正検出であり、RLFAは事前に設定された閾値以下で検出精度が低下するエージェントを即座に交換する。このダイナミックでフリーの緊急サイクルは、持続的な正確さ、出現する脅威への迅速な適応、進行中の運用に対する最小限の中断を保証する。
論文参考訳（メタデータ） (2025-01-29T13:00:22Z)
A Taxonomy of AgentOps for Enabling Observability of Foundation Model based Agents [12.49728300301026]
LLMはさまざまなダウンストリームタスクの成長を加速させ、AI自動化の需要が増加した。 AIエージェントシステムは、より複雑なタスクに取り組み、進化するにつれて、より幅広い利害関係者が関与する。これらのシステムは、AIエージェント、RAGパイプライン、プロンプト管理、エージェント機能、可観測性機能など、複数のコンポーネントを統合する。開発から運用ライフサイクル全体にわたって可観測性とトレーサビリティを確保するために、AgentOpsプラットフォームの設計に移行することが不可欠です。
論文参考訳（メタデータ） (2024-11-08T02:31:03Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems [1.079505444748609]
本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。 Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10～30%上回っていることを示す。
論文参考訳（メタデータ） (2024-07-17T21:44:28Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
KwaiAgents: Generalized Information-seeking Agent System with Large Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。 LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文参考訳（メタデータ） (2023-12-08T08:11:11Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Learning Generative Models with Goal-conditioned Reinforcement Learning [0.0]
目標条件付き強化学習を用いた生成モデル学習のための新しいフレームワークを提案する。画像合成のタスクにおいて,本手法が多種多様な高品質なサンプルを生成可能であることを実証的に実証した。
論文参考訳（メタデータ） (2023-03-26T20:33:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。