論文の概要: From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval
- arxiv url: http://arxiv.org/abs/2505.23059v1
- Date: Thu, 29 May 2025 04:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.66643
- Title: From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval
- Title(参考訳): トーケンから行動へ:国家機械推論から情報検索における再考の緩和へ
- Authors: Dohyeon Lee, Yeonseok Jeong, Seung-won Hwang,
- Abstract要約: Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする
本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
- 参考スコア(独自算出の注目度): 22.35942074715463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting enables complex reasoning in large language models (LLMs), including applications in information retrieval (IR). However, it often leads to overthinking, where models produce excessively long and semantically redundant traces with little or no benefit. We identify two key challenges in IR: redundant trajectories that revisit similar states and misguided reasoning that diverges from user intent. To address these, we propose State Machine Reasoning (SMR), a transition-based reasoning framework composed of discrete actions (Refine, Rerank, Stop) that support early stopping and fine-grained control. Experiments on the BEIR and BRIGHT benchmarks show that SMR improves retrieval performance (nDCG@10) by 3.4% while reducing token usage by 74.4%. It generalizes across LLMs and retrievers without requiring task-specific tuning, offering a practical alternative to conventional CoT reasoning. The code and details are available at https://github.com/ldilab/SMR.
- Abstract(参考訳): CoT(Chain-of-Thought)は、大規模言語モデル(LLM)における複雑な推論を可能にする。
しかし、モデルが過度に長く、意味的に冗長なトレースをほとんど、あるいは全く利益のないまま生成する、という過度な考えにつながります。
IRにおける2つの重要な課題は、類似状態を再検討する冗長な軌跡と、ユーザ意図から逸脱する推論の誤認である。
これらの問題に対処するために、我々は、早期停止ときめ細かい制御をサポートする独立したアクション(Refine, Rerank, Stop)からなる遷移ベースの推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
タスク固有のチューニングを必要とせず、LLMとレトリバーをまたいで一般化し、従来のCoT推論に代わる実用的な代替手段を提供する。
コードと詳細はhttps://github.com/ldilab/SMRで確認できる。
関連論文リスト
- Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.858707687894757]
大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。
本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。
MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文 参考訳(メタデータ) (2025-05-26T10:18:57Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - ThinkRec: Thinking-based recommendation via LLM [19.398302729633397]
ThinkRec は LLM4Rec を System 1 から System 2 (レーショナルシステム) に移行する思考ベースのフレームワークである。
ThinkRecは、キーワードの要約でアイテムメタデータを拡張し、合成推論トレースを注入するシンクアクティベーションメカニズムを導入している。
ThinkRecは、ユーザの潜在機能に基づいて専門家モデルに重みを動的に割り当てることで、個々のユーザへの推論パスを適応させ、精度とパーソナライゼーションを向上させる。
論文 参考訳(メタデータ) (2025-05-21T04:25:18Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。