論文の概要: A Study on Leveraging Search and Self-Feedback for Agent Reasoning
- arxiv url: http://arxiv.org/abs/2502.12094v1
- Date: Mon, 17 Feb 2025 18:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:49.334820
- Title: A Study on Leveraging Search and Self-Feedback for Agent Reasoning
- Title(参考訳): エージェント推論における検索と自己フィードバックの活用に関する研究
- Authors: Karthikeyan K, Michelle Yuan, Elman Mansimov, Katerina Margatina, Anurag Pratik, Daniele Bonadiman, Monica Sunkara, Yi Zhang, Yassine Benajiba,
- Abstract要約: 本研究では,探索とモデルの自己フィードバックを推論タスクに活用する方法を検討する。
まず,数理推論の探索において,地道フィードバックと自己フィードバックの相違について検討する。
- 参考スコア(独自算出の注目度): 16.256600534996686
- License:
- Abstract: Recent works have demonstrated that incorporating search during inference can significantly improve reasoning capabilities of language agents. Some approaches may make use of the ground truth or rely on model's own generated feedback. The search algorithm uses this feedback to then produce values that will update its criterion for exploring and exploiting various reasoning paths. In this study, we investigate how search and model's self-feedback can be leveraged for reasoning tasks. First, we explore differences in ground-truth feedback and self-feedback during search for math reasoning. Second, we observe limitations in applying search techniques to more complex tasks like tool-calling and design domain-specific approaches to address these gaps. Our experiments reveal challenges related to generalization when solely relying on self-feedback during search. For search to work effectively, either access to the ground-truth is needed or feedback mechanisms need to be carefully designed for the specific task.
- Abstract(参考訳): 近年の研究では、推論中に検索を組み込むことで、言語エージェントの推論能力が大幅に向上することが示されている。
いくつかのアプローチは、基礎的な真実を利用するか、またはモデルが生成したフィードバックに依存します。
検索アルゴリズムはこのフィードバックを使って、様々な推論経路を探索して活用するための基準を更新する値を生成する。
本研究では,探索とモデルの自己フィードバックを推論タスクに活用する方法を検討する。
まず,数理推論の探索において,地道フィードバックと自己フィードバックの相違について検討する。
第二に、ツールコールのような複雑なタスクに検索技術を適用する際の制限を観察し、これらのギャップに対処するためのドメイン固有のアプローチを設計する。
本実験は,探索中の自己フィードバックのみに依存する場合の一般化に関わる課題を明らかにする。
検索を効果的に行うためには、地平線へのアクセスが必要か、あるいは特定のタスクのためにフィードバックメカニズムを慎重に設計する必要がある。
関連論文リスト
- Objective Metrics for Human-Subjects Evaluation in Explainable Reinforcement Learning [0.47355466227925036]
説明は基本的に人間のプロセスである。説明の目的と聴衆を理解することは不可欠である。
説明可能な強化学習(XRL)に関する既存の研究は、その評価において人間に日常的に相談しない。
本稿では,観察可能な行動と行動可能な行動に基づく説明評価に客観的な人的指標を使用するよう研究者に呼びかける。
論文 参考訳(メタデータ) (2025-01-31T16:12:23Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。
我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。
RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。
最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。
Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文 参考訳(メタデータ) (2024-04-09T14:34:48Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Contextual Search in the Presence of Adversarial Corruptions [33.28268414842846]
より高次元における二項探索の一般化である文脈探索について検討する。
これらのアルゴリズムは, 敵対的腐敗がない場合に, ほぼ最適に後悔することを示す。
我々の手法は学習理論、ゲーム理論、高次元幾何学、凸解析からインスピレーションを得ている。
論文 参考訳(メタデータ) (2020-02-26T17:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。