Fugu-MT 論文翻訳(概要): AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

論文の概要: AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

arxiv url: http://arxiv.org/abs/2506.06017v1
Date: Fri, 06 Jun 2025 12:07:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.460946
Title: AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search
Title（参考訳）: AgentSwift: 価値誘導階層探索による効率的なLLMエージェント設計
Authors: Yu Li, Lehui Li, Zhihao Wu, Qingmin Liao, Jianye Hao, Kun Shao, Fengli Xu, Yong Li,
Abstract要約: 大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
参考スコア（独自算出の注目度）: 58.98450205734779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM) agents have demonstrated strong capabilities across diverse domains. However, designing high-performing agentic systems remains challenging. Existing agent search methods suffer from three major limitations: (1) an emphasis on optimizing agentic workflows while under-utilizing proven human-designed components such as memory, planning, and tool use; (2) high evaluation costs, as each newly generated agent must be fully evaluated on benchmarks; and (3) inefficient search in large search space. In this work, we introduce a comprehensive framework to address these challenges. First, We propose a hierarchical search space that jointly models agentic workflow and composable functional components, enabling richer agentic system designs. Building on this structured design space, we introduce a predictive value model that estimates agent performance given agentic system and task description, allowing for efficient, low-cost evaluation during the search process. Finally, we present a hierarchical Monte Carlo Tree Search (MCTS) strategy informed by uncertainty to guide the search. Experiments on seven benchmarks, covering embodied, math, web, tool, and game, show that our method achieves an average performance gain of 8.34\% over state-of-the-art baselines and exhibits faster search progress with steeper improvement trajectories. Code repo is available at https://github.com/Ericccc02/AgentSwift.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。しかし、高性能なエージェントシステムを設計することは依然として困難である。既存のエージェントサーチ手法には,(1)メモリ,計画,ツール使用といった,人間設計の実証されたコンポーネントを過小評価しながら,エージェントワークフローの最適化に重点を置くこと,(2)新たに生成されたエージェントをベンチマークで完全に評価する必要があること,(3)大規模な検索空間における非効率的な検索を行うこと,の3つの大きな制限がある。本稿では,これらの課題に対処するための包括的枠組みを紹介する。まず、エージェントワークフローと構成可能な機能コンポーネントを協調的にモデル化し、よりリッチなエージェントシステム設計を可能にする階層型検索空間を提案する。この構造設計空間を基盤として,エージェントシステムとタスク記述のエージェント性能を推定する予測値モデルを導入し,探索過程における効率的で低コストな評価を可能にする。最後に,不確実性から情報を得た階層型モンテカルロ木探索(MCTS)手法を提案する。組込み型, 数学, ウェブ, ツール, ゲームを含む7つのベンチマーク実験により, 本手法は, 最先端のベースラインよりも平均8.34倍の性能向上を達成し, より高速な探索精度を示す。 Code repoはhttps://github.com/Ericccc02/AgentSwiftで入手できる。

関連論文リスト

Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文参考訳（メタデータ） (2026-01-08T08:13:27Z)
WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文参考訳（メタデータ） (2025-10-28T17:51:42Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文参考訳（メタデータ） (2025-06-22T16:52:48Z)
Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文参考訳（メタデータ） (2025-05-30T08:46:23Z)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。 Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T09:46:50Z)
Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents [9.862334188345791]
大規模言語モデル(LLM)に基づく検索エージェントは,複雑なタスクを解く際,顕著な能力を示した。 LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。 SearchAgent-Xは、vLLMやHNSWベースの検索のような最先端システムよりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-17T16:07:01Z)
RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文参考訳（メタデータ） (2025-02-19T18:56:03Z)
AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。 Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文参考訳（メタデータ） (2024-10-08T15:52:42Z)
Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文参考訳（メタデータ） (2024-04-09T16:01:24Z)
Agents meet OKR: An Object and Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文参考訳（メタデータ） (2023-11-28T06:16:30Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
AutoRC: Improving BERT Based Relation Classification Models via Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。最適なアーキテクチャとは何かという合意は得られない。 BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文参考訳（メタデータ） (2020-09-22T16:55:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。