論文の概要: Stop Overthinking: Unlocking Efficient Listwise Reranking with Minimal Reasoning
- arxiv url: http://arxiv.org/abs/2605.14450v1
- Date: Thu, 14 May 2026 06:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.670103
- Title: Stop Overthinking: Unlocking Efficient Listwise Reranking with Minimal Reasoning
- Title(参考訳): 最小限の推論で効率の良いリストをアンロックするのをやめよう
- Authors: Danyang Liu, Kan Li,
- Abstract要約: 推論長とランキング品質の関係について検討する。
長さ正規化自己蒸留フレームワークを提案する。
提案手法は,異なる検索環境において,推論トークンの消費量を34%~37%削減しつつ,教師の有効性を維持する。
- 参考スコア(独自算出の注目度): 9.10992705914357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Listwise reranking utilizing Large Language Models (LLMs) has achieved state-of-the-art retrieval effectiveness. Recently, reasoning-enhanced models have further pushed these boundaries by employing Chain-of-Thought (CoT) to perform deep comparative analysis of candidate documents. However, this performance gain comes at a prohibitive computational cost, as models often generate thousands of reasoning tokens before producing a final ranking. In this work, we investigate the relationship between reasoning length and ranking quality, revealing an overthinking phenomenon where extended reasoning yields diminishing returns. To address this, we propose a Length-Regularized Self-Distillation framework. We synthesize a dataset by sampling diverse reasoning traces from a teacher model (Rank-K) and applying a Pareto-inspired filter to select traces that achieve high ranking performance with minimal token usage. By fine-tuning on these concise, high-quality rationales, the student model learns to internalize efficient reasoning patterns, effectively pruning redundant deliberation. Experiments on TREC Deep Learning and NeuCLIR benchmarks demonstrate that our method maintains the teacher's effectiveness while reducing inference token consumption by 34%-37% across different retrieval settings, offering a practical solution for deploying reasoning-enhanced rerankers in latency-sensitive applications.
- Abstract(参考訳): LLM(Large Language Models)を利用したリストの分類は、最先端の検索効率を実現している。
近年、推論強化モデルでは、候補文書の深い比較分析を行うためにChain-of-Thought(CoT)を用いることで、これらの境界をさらに推し進めている。
しかし、この性能向上は、最終的なランキングを生成する前に、モデルが数千の推論トークンを生成するため、計算コストが禁じられている。
本研究では、推論長とランキング品質の関係について検討し、拡張された推論の帰結が減少する過度な現象を明らかにする。
そこで本研究では,長周期自己蒸留フレームワークを提案する。
教師モデル(Rank-K)から多種多様な推論トレースを抽出し,Paretoにインスパイアされたフィルタを適用して,トークン使用量を最小限に抑えながら高い評価を得られるトレースを選択することによって,データセットを合成する。
これらの簡潔で高品質な合理性を微調整することで、学生モデルは効率的な推論パターンを内部化し、効果的に冗長な熟考を行う。
TRECのDeep LearningとNeuCLIRベンチマークを用いた実験では,提案手法は教師の効率を維持しつつ,異なる検索環境において推論トークンの消費量を34%~37%削減し,遅延に敏感なアプリケーションに推論強化リランカを配置するための実用的なソリューションを提供する。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - TFRank: Think-Free Reasoning Enables Practical Pointwise LLM Ranking [21.930228130429573]
LLM(Large Language Models)上に構築された推論集約型ランキングモデルは、顕著な進歩を遂げた。
既存のアプローチは、しばしば大規模なLCMと明示的なチェーン・オブ・ソート(CoT)推論に依存している。
我々は,小規模LLMに基づく効率的なポイントワイズ推論ランキングである textbfTFRank を提案する。
論文 参考訳(メタデータ) (2025-08-13T06:47:58Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [32.6122298575412]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。
提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。
実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文 参考訳(メタデータ) (2025-03-31T15:16:31Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale via Principled Criteria [18.612187958340407]
大規模言語モデル(LLM)は、最終回答の品質を高めるために、広範囲な中間推論単位(トークン、文など)を生成することに依存する。
トークンレベルの削減を明確な基準なしで適用する従来の手法は、完全に合理的に訓練されたモデルと比較して、性能が劣る。
本稿では,冗長な推論文を識別・除去するために,確率に基づく基準,冗長性を活用した文レベルの合理的化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T15:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。