Fugu-MT 論文翻訳(概要): Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection

論文の概要: Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection

arxiv url: http://arxiv.org/abs/2504.01931v1
Date: Wed, 02 Apr 2025 17:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.465222
Title: Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection
Title（参考訳）: レビュー、リファイン、リピート: 動的評価と選択によるAIエージェントの反復的デコード理解
Authors: Souradip Chakraborty, Mohammadreza Pourreza, Ruoxi Sun, Yiwen Song, Nino Scherrer, Jindong Gu, Furong Huang, Amrit Singh Bedi, Ahmad Beirami, Hamid Palangi, Tomas Pfister,
Abstract要約: Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
参考スコア（独自算出の注目度）: 71.92083784393418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While AI agents have shown remarkable performance at various tasks, they still struggle with complex multi-modal applications, structured generation and strategic planning. Improvements via standard fine-tuning is often impractical, as solving agentic tasks usually relies on black box API access without control over model parameters. Inference-time methods such as Best-of-N (BON) sampling offer a simple yet effective alternative to improve performance. However, BON lacks iterative feedback integration mechanism. Hence, we propose Iterative Agent Decoding (IAD) which combines iterative refinement with dynamic candidate evaluation and selection guided by a verifier. IAD differs in how feedback is designed and integrated, specifically optimized to extract maximal signal from reward scores. We conduct a detailed comparison of baselines across key metrics on Sketch2Code, Text2SQL, and Webshop where IAD consistently outperforms baselines, achieving 3--6% absolute gains on Sketch2Code and Text2SQL (with and without LLM judges) and 8--10% gains on Webshop across multiple metrics. To better understand the source of IAD's gains, we perform controlled experiments to disentangle the effect of adaptive feedback from stochastic sampling, and find that IAD's improvements are primarily driven by verifier-guided refinement, not merely sampling diversity. We also show that both IAD and BON exhibit inference-time scaling with increased compute when guided by an optimal verifier. Our analysis highlights the critical role of verifier quality in effective inference-time optimization and examines the impact of noisy and sparse rewards on scaling behavior. Together, these findings offer key insights into the trade-offs and principles of effective inference-time optimization.
Abstract（参考訳）: AIエージェントは様々なタスクで顕著なパフォーマンスを示してきたが、それでも複雑なマルチモーダルアプリケーション、構造化生成、戦略的計画に苦戦している。エージェントタスクの解決は通常、モデルパラメータを制御せずにブラックボックスAPIアクセスに依存するため、標準的な微調整による改善は現実的ではないことが多い。 Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。しかし、BONには反復的なフィードバック統合機構がない。そこで本研究では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号法(IAD)を提案する。 IADはフィードバックの設計と統合の仕方で異なり、特に報酬スコアから最大信号の抽出に最適化されている。私たちは、Sketch2Code、Text2SQL、Webshopにおける主要なメトリクス間のベースラインの詳細な比較を行い、IADはベースラインを一貫して上回り、Sketch2CodeとText2SQL(LLMの判断なしで)では3-6%、Webshopでは複数のメトリクスで8-10%のゲインを達成しています。 IADの利得の出所をよりよく理解するために、確率的サンプリングによる適応的フィードバックの影響を解消するための制御実験を行い、IADの改善は、単に多様性をサンプリングするだけでなく、検証者誘導の洗練によって主に引き起こされていることを発見した。また, IAD と BON は, 最適検証器によって導かれる場合, 計算量の増加とともに, 推論時間スケーリングを示すことを示した。本分析では,実効的な推定時間最適化における検証品質の重要性を強調し,ノイズとスパース報酬がスケーリング行動に与える影響について検討する。これらの発見は、効果的な推論時間最適化のトレードオフと原則に関する重要な洞察を提供する。

関連論文リスト

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents [43.376952807616256]
自律型LLMエージェントの最近の進歩は、環境との反復的相互作用によって性能を向上させる能力を示している。本稿では,TTIを3つの包括的かつ相互接続的な次元に分解するエージェント非依存および環境非依存のフレームワークであるテスト時間改善診断評価(TIDE)を提案する。
論文参考訳（メタデータ） (2026-02-02T15:00:47Z)
OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。 OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文参考訳（メタデータ） (2025-10-12T13:46:28Z)
Beyond Static Evaluation: Rethinking the Assessment of Personalized Agent Adaptability in Information Retrieval [12.058221341033835]
適応型パーソナライゼーションにおける評価を再考するための概念レンズを提案する。このレンズは,(1)時間的に進化する嗜好モデルを用いたペルソナベースユーザシミュレーション,(2)参照インタビューに触発されてコンテキスト内での嗜好を抽出する構造化エリケーションプロトコル,(3)エージェントの行動がセッションやタスク間でどのように改善されるかを測定する適応型評価メカニズムの3つを中心に構成されている。
論文参考訳（メタデータ） (2025-10-05T00:35:37Z)
CORE: Full-Path Evaluation of LLM Agents Beyond Final State [2.0391237204597368]
既存のエージェントベンチマークでは、最終状態のバイナリ判断に対する評価を少なくすることが多い。本稿では,タスクを有効なツール利用経路の集合として符号化する決定論的有限オートマトンに基づくフレームワークを提案する。 CORE(Path Correctness)、Path Correctness(Path Correctness)、Kendall's tau Composite(Kendall's tau Composite)、Prefix Criticality(Prefix Criticality)、Harmful-Call Rate(Harmful-Call Rate)、Efficency(Efficency)の5つのメトリクススイートを紹介します。
論文参考訳（メタデータ） (2025-09-25T10:49:35Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。リファレンスガイドによる評価(SPARE) 参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。 SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文参考訳（メタデータ） (2025-06-10T00:41:54Z)
ProRefine: Inference-Time Prompt Refinement with Textual Feedback [8.261243439474322]
AgenticRefineは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。 ProRefineはゼロショットチェーンのベースラインを3～37ポイント上回っている。
論文参考訳（メタデータ） (2025-06-05T17:52:30Z)
Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows [41.97051158610974]
本研究は, 詐欺的あるいは誤解を招くフィードバックの下で, エージェント的堅牢性の体系的解析を行う。我々は、最強のエージェントでさえ説得力に弱いが欠陥のある批判に弱いことを明らかにした。本研究は,フィードバックに基づく堅牢性の基本的脆弱性を強調し,より堅牢なエージェントシステム構築のためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-03T19:26:23Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization [9.03028904066824]
オープンセットテスト時間適応(OSTTA)は、未知のクラスを含む未ラベルのターゲットドメインに、オンラインのソース事前トレーニングモデルを適用することを目的としている。マルチモーダルオープンセットテスト時間適応に特化して設計された新しいフレームワークであるAdaptive Entropy-aware Optimization (AEO)を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:30Z)
Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文参考訳（メタデータ） (2024-12-09T12:27:21Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。 DAの明確な検証プロトコルは、文献の悪い実践につながっている。ドメイン適応手法の3つの分野にまたがる課題を示す。
論文参考訳（メタデータ） (2023-09-07T17:44:18Z)
Confidence-Aware Active Feedback for Efficient Instance Search [21.8172170825049]
関連性フィードバックは、不完全なランキング結果をさらに洗練させるために、インスタンス検索(INS)タスクで広く使用されている。本稿では,最も価値の高いフィードバック候補を効率的に選択できる信頼性対応アクティブフィードバック(CAAF)手法を提案する。特にCAAFは、TRECVID 2021の大規模ビデオINS評価において、第1位を記録している。
論文参考訳（メタデータ） (2021-10-23T16:14:03Z)
MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement Learning [36.14516028564416]
本稿では、最適制御ポリシーを学習するための革新的マルチモデルカルマン時間差分(MM-KTD)フレームワークを提案する。システムのサンプリング効率を高めるために,能動的学習法を提案する。実験の結果, MM-KTDフレームワークは最先端のフレームワークに比べて優れていた。
論文参考訳（メタデータ） (2020-05-30T06:39:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。