論文の概要: Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking
- arxiv url: http://arxiv.org/abs/2601.18146v1
- Date: Mon, 26 Jan 2026 05:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.683033
- Title: Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking
- Title(参考訳): 必要なときを考える: LLMに基づくランク付けのためのモデル認識推論ルーティング
- Authors: Huizhong Guo, Tianjun Wei, Dongxia Wang, Yingpeng Du, Ziyan Wang, Jie Zhang, Zhu Sun,
- Abstract要約: 推論プロンプトはランキングユーティリティを向上させることができるが、その利点は一貫性がなく、かなりの計算コストがかかる。
本稿では, 直接推論 (Non-Think) と推論 (Think) を用いるかを決定するために, 軽量なプラグアンドプレイルータヘッドを用いた推論ルーティングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.69863022367215
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly applied to ranking tasks in retrieval and recommendation. Although reasoning prompting can enhance ranking utility, our preliminary exploration reveals that its benefits are inconsistent and come at a substantial computational cost, suggesting that when to reason is as crucial as how to reason. To address this issue, we propose a reasoning routing framework that employs a lightweight, plug-and-play router head to decide whether to use direct inference (Non-Think) or reasoning (Think) for each instance before generation. The router head relies solely on pre-generation signals: i) compact ranking-aware features (e.g., candidate dispersion) and ii) model-aware difficulty signals derived from a diagnostic checklist reflecting the model's estimated need for reasoning. By leveraging these features before generation, the router outputs a controllable token that determines whether to apply the Think mode. Furthermore, the router can adaptively select its operating policy along the validation Pareto frontier during deployment, enabling dynamic allocation of computational resources toward instances most likely to benefit from Think under varying system constraints. Experiments on three public ranking datasets with different scales of open-source LLMs show consistent improvements in ranking utility with reduced token consumption (e.g., +6.3\% NDCG@10 with -49.5\% tokens on MovieLens with Qwen3-4B), demonstrating reasoning routing as a practical solution to the accuracy-efficiency trade-off.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索とレコメンデーションにおけるタスクのランク付けにますます適用されている。
推論を推し進めることは、ランキングユーティリティを向上させることができるが、予備的な調査により、その利点は一貫性がなく、相当な計算コストがかかることが判明し、理由付けは推論方法と同じくらい重要であることが示唆された。
そこで本研究では, 直接推論(Non-Think) と推論(Think) を用いるかを決定するために, 軽量なプラグアンドプレイルータヘッドを用いた推論ルーティングフレームワークを提案する。
ルーターヘッドは、前世代の信号のみに依存します。
一 コンパクトなランクアウェアの特徴(例えば、候補分散)及び
二 モデルの推論の必要性を反映した診断チェックリストから導出されるモデル認識困難信号
生成前にこれらの機能を活用することで、ルータは制御可能なトークンを出力し、Thinkモードを適用するかどうかを決定する。
さらに、ルータはデプロイメント中のParetoフロンティアの検証に沿って、運用ポリシーを適応的に選択できるため、さまざまなシステム制約の下でThinkの恩恵を受ける可能性が最も高いインスタンスに対して、計算リソースを動的に割り当てることが可能になる。
オープンソースのLLMの規模が異なる3つの公開ランキングデータセットの実験では、トークン消費量を削減したランキングユーティリティ(例えば、 +6.3\% NDCG@10 と Qwen3-4B の MovieLens の -49.5\% トークン)が一貫した改善を示し、精度と効率のトレードオフに対する実用的な解決策としての推論ルーティングを実証している。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Gold-Switch: Training-Free Superposition of Slow- and Fast- Thinking LLMs [36.84838904299283]
大規模推論モデル(LRM)は、意図的な人間の推論をエミュレートすることで、構造化されたタスクに優れるが、しばしば過度な考えに悩まされる。
本稿では,1つのモデルのオン/オフによるスイッチング推論を最適化するために,軽量でトレーニング不要な規制を施したデプロイ戦略を提案する。
論文 参考訳(メタデータ) (2025-10-08T08:17:57Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval [22.35942074715463]
Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする
本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
論文 参考訳(メタデータ) (2025-05-29T04:04:25Z) - Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning [60.84901522792042]
Multimodal Retrieval-Augmented Generation (MRAG)は、マルチモーダル大言語モデル(MLLM)における幻覚の緩和を約束している。
進化する推論状態に基づいて知識をいつどこで取得するかを学習する新しいMRAGフレームワークであるR1を提案する。
R1-は多種多様なKBを適応的かつ効果的に利用でき、不要な検索を減らし、効率と精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:17:57Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。