Fugu-MT 論文翻訳(概要): Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

論文の概要: Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?

arxiv url: http://arxiv.org/abs/2505.16886v1
Date: Thu, 22 May 2025 16:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.462992
Title: Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary?
Title（参考訳）: パスケージは本当に必要か?
Authors: Nour Jedidi, Yung-Sung Chuang, James Glass, Jimmy Lin,
Abstract要約: 我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。 ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
参考スコア（独自算出の注目度）: 60.725923225442095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM's reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.
Abstract（参考訳）: 複雑な自然言語タスクにおける推論モデルの成功により、Information Retrieval (IR)コミュニティの研究者たちは、Large Language Models (LLMs)上に構築されたパスリランカに類似した推論機能を組み込む方法を模索し始めた。これらの手法は通常、最終的な関連性予測に到達する前に、明示的なステップバイステップの推論プロセスを生成するためにLLMを使用する。しかし、推論は実際に精度を向上するのだろうか? 本稿では、この問題を深く掘り下げ、推論に基づくポイントワイド・リランカ(ReasonRR)と、同一のトレーニング条件下での標準的、非推論ポイントワイド・リランカ(StandardRR)を比較し、StandardRRが一般的にReasonRRより優れていることを観察する。その結果,ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることが判明した。この結果から,LLMの推論プロセスによって推論に基づくリランカが制限されることが判明した。これは,このリランカを偏光関連度スコアに推し進めるものであり,ポイントワイドリランカの精度に重要な要因である通路の部分的関連性を考慮することができない。

関連論文リスト

Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Reason from Future: Reverse Thought Chain Enhances LLM Reasoning [18.637191592875155]
我々はReason from Future(RFF)と呼ばれる新しい推論パラダイムを提案する。 RFFは、トップダウン計画とボトムアップ推論蓄積を組み合わせた双方向推論によって推論パスを生成する。 RFFは、複雑なタスクを解決するために、より正確で検索スペースの少ない従来のパラダイムよりも優れている。
論文参考訳（メタデータ） (2025-06-04T08:03:17Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文参考訳（メタデータ） (2025-03-27T17:44:18Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning [38.60086807496399]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。 FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文参考訳（メタデータ） (2024-02-21T17:23:59Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。 REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文参考訳（メタデータ） (2023-04-04T15:57:28Z)
Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文参考訳（メタデータ） (2022-08-23T14:42:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。