Fugu-MT 論文翻訳(概要): ReZero: Enhancing LLM search ability by trying one-more-time

論文の概要: ReZero: Enhancing LLM search ability by trying one-more-time

arxiv url: http://arxiv.org/abs/2504.11001v1
Date: Tue, 15 Apr 2025 09:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 04:09:55.815266
Title: ReZero: Enhancing LLM search ability by trying one-more-time
Title（参考訳）: ReZero: 1回以上試してLLM検索能力を高める
Authors: Alan Dao, Thinh Le,
Abstract要約: Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Model (LLM) の性能を改善するが、初期検索クエリの品質に大きく依存する。 ReZero(Retry-Zero)は,検索クエリをリトライする動作を直接報酬する新しいRLフレームワークである。 ReZeroは、25%のベースラインに比べて46.88%の精度で大幅に改善されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) improves Large Language Model (LLM) performance on knowledge-intensive tasks but depends heavily on initial search query quality. Current methods, often using Reinforcement Learning (RL), typically focus on query formulation or reasoning over results, without explicitly encouraging persistence after a failed search. We introduce ReZero (Retry-Zero), a novel RL framework that directly rewards the act of retrying a search query following an initial unsuccessful attempt. This incentivizes the LLM to explore alternative queries rather than prematurely halting. ReZero demonstrates significant improvement, achieving 46.88% accuracy compared to a 25% baseline. By rewarding persistence, ReZero enhances LLM robustness in complex information-seeking scenarios where initial queries may prove insufficient.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Model (LLM) の性能を改善するが、初期検索クエリの品質に大きく依存する。強化学習(Reinforcement Learning, RL)と呼ばれる現在の手法は、クエリの定式化や結果の推論に重点を置いている。 ReZero(Retry-Zero)は,検索クエリをリトライする動作を直接報酬する新しいRLフレームワークである。これにより、LDMは早めに停止するのではなく、代替クエリを探索するインセンティブを得る。 ReZeroは、25%のベースラインに比べて46.88%の精度で大幅に改善されている。 ReZeroは永続性に報いることによって、初期クエリが不十分な複雑な情報検索シナリオにおけるLLMの堅牢性を高める。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
FB-RAG: Improving RAG with Forward and Backward Lookup [4.961899585180462]
Forward-Backward RAG (FB-RAG) は、単純だが強力で前向きな戦略に基づいた、新しいトレーニングフリーフレームワークである。 FB-RAGは9つのデータセットで一貫して強力な結果を提供する。
論文参考訳（メタデータ） (2025-05-22T18:31:52Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。 SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文参考訳（メタデータ） (2025-04-01T17:59:30Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers [7.6245627565464]
大規模言語モデル(LLM)は、赤外線システムにおいてゼロショットの再ランク付けに人気がある。本稿では,検索クエリによる注目パターンの変化を利用した,高精度かつ効率的な再ランク付け手法であるin-context re- rank (ICR)を提案する。本研究は,テキスト生成を超越したオープンウェイトLCMの新たな利用方法を探究することを目的とする。
論文参考訳（メタデータ） (2024-10-03T16:25:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。