論文の概要: On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows
- arxiv url: http://arxiv.org/abs/2504.01931v4
- Date: Tue, 08 Jul 2025 03:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.751607
- Title: On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows
- Title(参考訳): エージェントAIワークフローのテスト時間スケーリングにおけるフィードバックの役割について
- Authors: Souradip Chakraborty, Mohammadreza Pourreza, Ruoxi Sun, Yiwen Song, Nino Scherrer, Furong Huang, Amrit Singh Bedi, Ahmad Beirami, Jindong Gu, Hamid Palangi, Tomas Pfister,
- Abstract要約: エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
- 参考スコア(独自算出の注目度): 71.92083784393418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI workflows (systems that autonomously plan and act) are becoming widespread, yet their task success rate on complex tasks remains low. A promising solution is inference-time alignment, which uses extra compute at test time to improve performance. Inference-time alignment relies on three components: sampling, evaluation, and feedback. While most prior work studies sampling and automatic evaluation, feedback remains underexplored. To study the role of feedback, we introduce Iterative Agent Decoding (IAD), a procedure that repeatedly inserts feedback extracted from different forms of critiques (reward models or AI-generated textual feedback) between decoding steps. Through IAD, we analyze feedback along four dimensions: (1) its role in the accuracy-compute trade-offs with limited inference budget, (2) quantifying the gains over diversity-only baselines such as best-of-N sampling, (3) effectiveness of composing feedback from reward models versus textual critique, and (4) robustness to noisy or low-quality feedback. Across Sketch2Code, Text2SQL, Intercode, and WebShop, we show that IAD with proper integration of high fidelity feedback leads to consistent gains up to 10 percent absolute performance improvement over various baselines such as best-of-N. Our findings underscore feedback as a crucial knob for inference-time alignment of agentic AI workflows with limited inference budget.
- Abstract(参考訳): エージェントAIワークフロー(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
期待できる解決策は、テスト時に余分な計算を使ってパフォーマンスを改善する推論時アライメントである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
ほとんどの先行研究ではサンプリングと自動評価が行われていたが、フィードバックは未検討のままである。
フィードバックの役割を研究するために,反復的エージェント復号法(IAD)を導入する。これは,復号ステップ間で異なる形式の批判(逆モデルやAI生成のテキストフィードバック)から抽出されたフィードバックを繰り返し挿入する手法である。
IAD を通じて,(1) 推測予算を限定した精度計算トレードオフにおけるその役割,(2) ベスト・オブ・N サンプリングなどの多様性のみに基づくベースラインに対する利得の定量化,(3) 報酬モデルとテキスト批判からのフィードバック作成の有効性,(4) ノイズや低品質フィードバックに対する堅牢性。
Sketch2Code、Text2SQL、Intercode、WebShop全体で、高い忠実度フィードバックを適切に統合したIADは、ベスト・オブ・Nのような様々なベースラインよりも最大10%パフォーマンスが向上することを示す。
我々の研究は、限られた推論予算を伴うエージェントAIワークフローの推論時間アライメントのための重要なノブとして、フィードバックを裏付けている。
関連論文リスト
- SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。
リファレンスガイドによる評価(SPARE)
参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。
SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - ProRefine: Inference-Time Prompt Refinement with Textual Feedback [8.261243439474322]
AgenticRefineは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。
本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。
ProRefineはゼロショットチェーンのベースラインを3~37ポイント上回っている。
論文 参考訳(メタデータ) (2025-06-05T17:52:30Z) - Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows [41.97051158610974]
本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。
我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。
本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-03T19:26:23Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization [9.03028904066824]
オープンセットテスト時間適応(OSTTA)は、未知のクラスを含む未ラベルのターゲットドメインに、オンラインのソース事前トレーニングモデルを適用することを目的としている。
マルチモーダルオープンセットテスト時間適応に特化して設計された新しいフレームワークであるAdaptive Entropy-aware Optimization (AEO)を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Confidence-Aware Active Feedback for Efficient Instance Search [21.8172170825049]
関連性フィードバックは、不完全なランキング結果をさらに洗練させるために、インスタンス検索(INS)タスクで広く使用されている。
本稿では,最も価値の高いフィードバック候補を効率的に選択できる信頼性対応アクティブフィードバック(CAAF)手法を提案する。
特にCAAFは、TRECVID 2021の大規模ビデオINS評価において、第1位を記録している。
論文 参考訳(メタデータ) (2021-10-23T16:14:03Z) - MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement
Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。
システムのサンプリング効率を高めるために,能動的学習法を提案する。
実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文 参考訳(メタデータ) (2020-05-30T06:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。