論文の概要: In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks
- arxiv url: http://arxiv.org/abs/2604.27891v2
- Date: Tue, 05 May 2026 20:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 15:17:35.635313
- Title: In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks
- Title(参考訳): 手続き的タスクのための文脈的プロンプティング・オブゾライトエージェントオーケストレーション
- Authors: Simon Dennis, Michael Diamond, Rivaan Patil, Kevin Shabahang, Hao Guo,
- Abstract要約: LangGraph、CrewAI、Google ADK、OpenAI Agents SDKなどのツールが、LCMの上に外部オーケストレータを配置し、状態を追跡し、各ターンにルーティング命令を注入する。
本稿では,手順全体をシステムプロンプトに配置し,モデルを自己組織化させるという,手続き的タスクにおいて,このアーキテクチャはより単純な選択肢によって支配されていることを示す。
- 参考スコア(独自算出の注目度): 1.5113187239675951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent orchestration frameworks -- LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, and others -- place an external orchestrator above the LLM, tracking state and injecting routing instructions at every turn. We present a controlled comparison showing that for procedural tasks, this architecture is dominated by a simpler alternative: putting the entire procedure in the system prompt and letting the model self-orchestrate. Across three domains -- travel booking (14 nodes), Zoom technical support (14 nodes), and insurance claims processing (55 nodes) -- we evaluate 200 conversations per condition using LLM-as-judge scoring on five quality criteria. The in-context approach scores 4.53--5.00 on a 5-point scale while a LangGraph orchestrator using the same model scores 4.17--4.84. The orchestrated system fails on 24% of travel, 9% of Zoom, and 17% of insurance conversations, compared to 11.5%, 0.5%, and 5% for the in-context baseline. While external orchestration may have been necessary for earlier models, advances in frontier model capabilities have made it unnecessary for multi-turn conversations following a defined procedure.
- Abstract(参考訳): エージェントオーケストレーションフレームワーク(LangGraph、CrewAI、Google ADK、OpenAI Agents SDKなど)は、LLMの上に外部オーケストレータを配置し、状態を追跡し、各ターンにルーティング命令を注入する。
本稿では,手順全体をシステムプロンプトに配置し,モデルを自己組織化させるという,手続き的タスクにおいて,このアーキテクチャはより単純な選択肢によって支配されていることを示す。
旅行予約(14ノード)、Zoom技術サポート(14ノード)、保険請求処理(55ノード)の3つの領域にわたって、LLM-as-judgeスコアを5つの品質基準で評価した。
インコンテキストのアプローチは5ポイントスケールで4.53--5.00、同じモデルを使用したLangGraphオーケストレータは4.17--4.84である。
組織されたシステムは旅行の24%、Zoomの9%、保険に関する会話の17%で失敗する。
初期のモデルでは外部オーケストレーションが必要であったが、フロンティアモデルの能力の進歩により、定義された手順に従ってマルチターン会話を行う必要がなくなった。
関連論文リスト
- Select-then-Solve: Paradigm Routing as Inference-Time Optimization for LLM Agents [40.71556008019808]
Direct、CoT、ReAct、Plan-Execute、Re Reflection、ReCodeの6つの推論時パラダイムを比較します。
推論構造は、いくつかのタスクで劇的に役立つが、他のタスクに悪影響を及ぼす。
提案手法は,各タスクに応答する前に,軽量な埋め込み型ルータが最適なパラダイムを選択することである。
論文 参考訳(メタデータ) (2026-04-08T07:20:23Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - SkillOrchestra: Learning to Route Agents via Skill Transfer [65.50924963973286]
スキルを意識したオーケストレーションのためのフレームワークであるSkillOrchestraを紹介します。
SkillOrchestraは、実行経験からきめ細かいスキルを学び、それらのスキルの下でエージェント固有の能力とコストをモデル化する。
デプロイメントでは、オーケストレータが現在のインタラクションのスキル要件を推測し、明示的なパフォーマンスコストトレードオフの下でそれらを最も満足するエージェントを選択する。
論文 参考訳(メタデータ) (2026-02-23T10:17:25Z) - CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。
負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。
マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:54:34Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。