論文の概要: An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2510.14660v1
- Date: Thu, 16 Oct 2025 13:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.866955
- Title: An Efficient Rubric-based Generative Verifier for Search-Augmented LLMs
- Title(参考訳): 探索拡張LDMのための効率的なルーブリックベース生成検証器
- Authors: Linyue Ma, Yilong Xu, Xiang Long, Zhi Zheng,
- Abstract要約: ナゲット・アズ・ルブリック」は、異なる探索強化ワークロードの構造化評価基準として原子情報ポイントを扱います。
Search-Gen-Vは、異なるワークロード間で強力な検証精度を達成する。
- 参考スコア(独自算出の注目度): 9.379117582433869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search augmentation empowers Large Language Models with retrieval capabilities to overcome the limitations imposed by static parameters. Recently, Reinforcement Learning leverages tailored reward signals as a viable technique to enhance LLMs performing tasks involving search. However, existing reward modeling for search-augmented LLMs faces several limitations. Rule-based rewards, such as Exact Match, are verifiable but fragile to variations in expression and cannot be applied to long-form workloads. In contrast, generative rewards improve robustness, but designing verifiable and stable rewards for long-form workloads in dynamic corpora remains challenging and also incurs high computational costs. In this paper, we propose a unified and verifiable paradigm, "nugget-as-rubric", which treats atomic information points as structured evaluation criteria for different search-augmentation workloads. Short-form tasks correspond to a single rubric, whereas long-form tasks expand to multiple rubrics aligned with the question's information needs. To support long-form settings, we design an automatic rubric construction pipeline based on query rewriting, which can automatically retrieve passages relevant to each question and extract rubrics from them, both from static corpora and from dynamic online web content. Furthermore, we introduce \textbf{Search-Gen-V}, a 4B-parameter efficient generative verifier under our proposed verifiable paradigm, which is trained via the idea of distillation and a two-stage strategy. Experimental results show that Search-Gen-V achieves strong verification accuracy across different workloads, making it a scalable, robust, and efficient verifiable reward constructor for search-augmented LLMs.
- Abstract(参考訳): 検索の拡張により、静的パラメータによって課される制限を克服するために、検索機能を備えた大規模言語モデルが強化される。
近年,Reinforcement Learning は,検索に関わるタスクを行う LLM を向上する技術として,適合した報酬信号を活用している。
しかし、既存のLLMに対する報酬モデリングにはいくつかの制限がある。
Exact Matchのようなルールベースの報酬は検証可能であるが、表現のバリエーションに脆弱であり、ロングフォームなワークロードには適用できない。
対照的に、生成的報酬は堅牢性を改善するが、動的コーパスにおける長期的ワークロードに対する検証可能で安定した報酬を設計することは困難であり、高い計算コストを発生させる。
本稿では,原子情報ポイントを異なる探索拡張ワークロードの構造化評価基準として扱う,統一的で検証可能なパラダイム"Nugget-as-rubric"を提案する。
ショートフォームタスクは単一のルーブリックに対応し、ロングフォームタスクは、質問の情報要求に応じて複数のルーブリックに拡張する。
長文設定をサポートするために,問合せ書き換えに基づく自動ルーリック構築パイプラインを設計し,静的コーパスと動的オンラインウェブコンテンツの両方から各問合せに関連するルーリックを抽出する。
さらに,本提案手法では, 蒸留と2段階戦略を用いて訓練した, 4Bパラメータ効率の良い生成検証器である \textbf{Search-Gen-V} を導入する。
実験結果から, Search-Gen-V は様々なワークロードに対して高い検証精度を達成し,検索拡張 LLM のためのスケーラブルで堅牢で,効率の良い報酬コンストラクタであることがわかった。
関連論文リスト
- SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - I3: Intent-Introspective Retrieval Conditioned on Instructions [83.91776238599824]
I3は,タスク固有の訓練を使わずに,インストラクションに条件付けられた様々なタスクに対して,インテント・イントロスペクティブ検索を行う統合検索システムである。
I3は、特定の検索意図を理解するために、パラメータ分離された方法でプラグ可能なイントロスペクタを組み込む。
LLM生成データを利用してI3フェーズ・バイ・フェイズを訓練し、プログレッシブ・ストラクチャー・プルーニングとドローバック・ベースのデータリファインメントという2つの重要な設計を具現化した。
論文 参考訳(メタデータ) (2023-08-19T14:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。