論文の概要: CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic
- arxiv url: http://arxiv.org/abs/2511.12159v1
- Date: Sat, 15 Nov 2025 11:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.646598
- Title: CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic
- Title(参考訳): CriticSearch:Retrospective Criticを通じて、検索エージェントの細分化されたクレジットアサインメント
- Authors: Yaocheng Zhang, Haohuan Huang, Zijun Song, Yuanheng Zhu, Qichao Zhang, Zijie Zhao, Dongbin Zhao,
- Abstract要約: CriticSearchは詳細なクレジット割り当てフレームワークで、振り返りの批判メカニズムを通じて、密集したターンレベルのフィードバックを提供する。
様々なマルチホップ推論ベンチマークの実験結果は、CriticSearchが既存のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 24.371889836599138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-Integrated Reasoning (TIR) with search engines enables large language models to iteratively retrieve up-to-date external knowledge, enhancing adaptability and generalization in complex question-answering tasks. However, existing search agent pipelines typically depend on reinforcement learning based optimization, which often suffers from sparse outcome rewards, leading to inefficient exploration and unstable training. We introduce CriticSearch, a fine-grained credit-assignment framework that supplies dense, turn-level feedback via a retrospective critic mechanism. During training, a frozen, asymmetric critique LLM retrospectively evaluates each turn using privileged information from the full trajectory and gold answers, converting these assessments into stable, dense rewards that guide policy improvement. Experimental results across diverse multi-hop reasoning benchmarks demonstrate that CriticSearch consistently outperforms existing baselines, achieving faster convergence, improved training stability, and higher performance.
- Abstract(参考訳): TIR(Tool-Integrated Reasoning)を検索エンジンと組み合わせることで、大規模言語モデルで最新の外部知識を反復的に取得し、複雑な質問応答タスクにおける適応性と一般化を向上することができる。
しかし、既存の探索エージェントパイプラインは、通常、強化学習に基づく最適化に依存しており、しばしば粗末な結果の報奨に悩まされ、非効率な探索と不安定な訓練につながる。
私たちはCryticSearchを紹介します。これは、振り返り批判機構を通じて、密集したターンレベルのフィードバックを提供する、きめ細かいクレジット割り当てフレームワークです。
トレーニング中、凍結した非対称的なLCMは、全軌道と金の回答からの特権情報を用いて各ターンを振り返って評価し、これらの評価を政策改善を導く安定した、密度の高い報酬に変換する。
多様なマルチホップ推論ベンチマークによる実験結果から、CriticSearchは既存のベースラインを一貫して上回り、より高速な収束、トレーニング安定性の向上、パフォーマンスの向上を実現している。
関連論文リスト
- RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks [75.52891348667491]
オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。
関連するルーリックの数が多ければ多いほど、極めて高い検証コストと応答の不完全な評価につながる。
RLAC(Reinforcement Learning with Adrial Critic, Reinforcement Learning with Adrial Critic)を提案する。
論文 参考訳(メタデータ) (2025-11-03T17:15:05Z) - Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Beyond Correctness: Rewarding Faithful Reasoning in Retrieval-Augmented Generation [21.72639961371058]
本稿では,RLに基づく検索エージェントを評価するための総合的な評価フレームワークを提案する。
忠実な推論を促進するために,よりきめ細かな忠実さ報酬を強化学習プロセスに統合する新しい枠組みであるVERITASを紹介する。
論文 参考訳(メタデータ) (2025-10-15T08:17:52Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Contextual Candor: Enhancing LLM Trustworthiness Through Hierarchical Unanswerability Detection [0.0]
本稿では,大規模言語モデル(LLM)のための新しいハイブリッド学習パラダイムであるReinforced Unanswerability Learning (RUL)を紹介する。
RULは、多段階学習戦略によって導かれるLLMの生成コアに、識別不能な予測ヘッドを統合する。
実験は、RULの優れた性能を示し、文、段落、ランキングレベルにわたる解答不能検出において、はるかに高い精度を達成する。
論文 参考訳(メタデータ) (2025-06-01T17:59:27Z) - Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning [35.35813310224967]
大きな言語モデルは印象的な推論能力を示してきたが、本質的には知識貯水池によって制限されている。
Retrieval-augmented reasoningは、LCMが外部リソースをクエリできるようにすることによって、この制限を緩和する。
本稿では,新しい「探索・復調思考」パラダイムを取り入れた強化学習フレームワークであるAutoRefineを提案する。
論文 参考訳(メタデータ) (2025-05-16T14:11:29Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-06T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。