論文の概要: Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short
- arxiv url: http://arxiv.org/abs/2510.08985v1
- Date: Fri, 10 Oct 2025 03:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.102918
- Title: Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short
- Title(参考訳): 文書のランク付けにおける推論の再考:なぜチェーン・オブ・サートが短くなるのか
- Authors: Xuan Lu, Haohang Huang, Rui Meng, Yaohui Jin, Wenjun Zeng, Xiaoyu Shen,
- Abstract要約: 文書の再ランク付けは情報検索(IR)における重要な要素である
本研究は, ポイントワイド設定とリストワイド設定の両方にまたがって, 推論に関する最初の体系的な研究である。
- 参考スコア(独自算出の注目度): 36.93384080571354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document reranking is a key component in information retrieval (IR), aimed at refining initial retrieval results to improve ranking quality for downstream tasks. Recent studies--motivated by large reasoning models (LRMs)--have begun incorporating explicit chain-of-thought (CoT) reasoning into LLM-based rerankers. However, the effectiveness of such reasoning for ranking tasks remains underexplored. In this work, we present the first systematic study of reasoning in reranking across both pointwise and listwise settings, under both supervised fine-tuning and reinforcement learning. Using diverse benchmarks, including reasoning-intensive datasets (BRIGHT) and standard IR benchmarks (BEIR), we find that reasoning-augmented rerankers consistently underperform their direct counterparts that predict rankings without CoT, despite substantially higher inference costs. Our analysis reveals three core limitations: (i) in pointwise rerankers, reasoning breaks calibration and biases models toward the positive class, raising TPR but lowering TNR, which inflates false positives and degrades ranking in negative-dominant pools; (ii) in listwise rerankers, reasoning improves in-domain fit but increases variance and fails to generalize out-of-domain, even when reinforcement learning shortens rationales; and (iii) overall, directly fine-tuned rerankers remain more stable, effective, and robust. These findings challenge the assumption that explicit reasoning is universally beneficial for reranking. We conclude by highlighting future directions, including calibration-aware scoring for pointwise rerankers and the design of concise, targeted reasoning strategies to mitigate overfitting and overthinking in listwise rerankers.
- Abstract(参考訳): 文書のランク付けは情報検索(IR)において重要な要素であり、ダウンストリームタスクのランク付け品質を改善するために、初期検索結果を精査することを目的としている。
最近の研究は、大きな推論モデル(LRMs)によって動機付けられ、LLMベースのリランカーに明示的なチェーン・オブ・シークレット(CoT)推論を取り入れ始めた。
しかし、こうした格付け作業に対する推論の有効性は未解明のままである。
本研究は,教師付き微調整と強化学習の両面において,ポイントワイドとリストワイドの両方にまたがる推論に関する最初の体系的な研究を提示する。
推論集約データセット(BRIGHT)や標準IRベンチマーク(BEIR)など、さまざまなベンチマークを使用することで、推論コストが大幅に高いにもかかわらず、推論強化されたリランカはCoTなしでランキングを予測する直接的なベンチマークを一貫して過小評価していることがわかった。
私たちの分析では3つの限界が明らかになりました。
i) ポイントワイド・リランカーにおいて、推論は、正のクラスに対する校正と偏見を破り、TPRを上昇するが、TNRを低下させ、偽陽性を膨らませ、負の優位なプールにおけるランク付けを低下させる。
(二)リストワイド・リランカにおいては、推論はドメイン内の適合性を向上するが分散を増大させ、強化学習が合理性を短縮した場合でもドメイン外の一般化に失敗する。
(iii) 全体として、直接調整されたリランカーは、より安定し、効果的で、堅牢である。
これらの知見は、明示的推論が再分類に普遍的に有用であるという仮定に挑戦する。
我々は、ポイントワイド・リランカーの校正認識スコアや簡潔な設計、過剰適合を緩和し、リストワイド・リランカーにおける過度なリランカーの考えを過小評価する目的の推論戦略など、今後の方向性を強調して結論付ける。
関連論文リスト
- Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary? [60.725923225442095]
我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。
ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
論文 参考訳(メタデータ) (2025-05-22T16:41:37Z) - R-TOFU: Unlearning in Large Reasoning Models [5.116399056871577]
この設定に合わせた最初のベンチマークであるReasoning-TOFUを紹介します。
R-TOFUは、既存の未学習タスクを現実的なCoTアノテーションで強化する。
本稿では,コヒーレントで不確定な推論を保持する優先最適化変種であるReasoned IDKを提案する。
論文 参考訳(メタデータ) (2025-05-21T07:44:30Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。