Fugu-MT 論文翻訳(概要): From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval

論文の概要: From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval

arxiv url: http://arxiv.org/abs/2505.23059v1
Date: Thu, 29 May 2025 04:04:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.66643
Title: From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval
Title（参考訳）: トーケンから行動へ:国家機械推論から情報検索における再考の緩和へ
Authors: Dohyeon Lee, Yeonseok Jeong, Seung-won Hwang,
Abstract要約: Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。 BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
参考スコア（独自算出の注目度）: 22.35942074715463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) prompting enables complex reasoning in large language models (LLMs), including applications in information retrieval (IR). However, it often leads to overthinking, where models produce excessively long and semantically redundant traces with little or no benefit. We identify two key challenges in IR: redundant trajectories that revisit similar states and misguided reasoning that diverges from user intent. To address these, we propose State Machine Reasoning (SMR), a transition-based reasoning framework composed of discrete actions (Refine, Rerank, Stop) that support early stopping and fine-grained control. Experiments on the BEIR and BRIGHT benchmarks show that SMR improves retrieval performance (nDCG@10) by 3.4% while reducing token usage by 74.4%. It generalizes across LLMs and retrievers without requiring task-specific tuning, offering a practical alternative to conventional CoT reasoning. The code and details are available at https://github.com/ldilab/SMR.
Abstract（参考訳）: CoT(Chain-of-Thought)は、大規模言語モデル(LLM)における複雑な推論を可能にする。しかし、モデルが過度に長く、意味的に冗長なトレースをほとんど、あるいは全く利益のないまま生成する、という過度な考えにつながります。 IRにおける2つの重要な課題は、類似状態を再検討する冗長な軌跡と、ユーザ意図から逸脱する推論の誤認である。これらの問題に対処するために、我々は、早期停止ときめ細かい制御をサポートする独立したアクション(Refine, Rerank, Stop)からなる遷移ベースの推論フレームワークであるState Machine Reasoning (SMR)を提案する。 BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。タスク固有のチューニングを必要とせず、LLMとレトリバーをまたいで一般化し、従来のCoT推論に代わる実用的な代替手段を提供する。コードと詳細はhttps://github.com/ldilab/SMRで確認できる。

関連論文リスト

ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30～50%削減することが示された。
論文参考訳（メタデータ） (2025-06-12T15:43:01Z)
AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。このアプローチは、推論の問題に重点を置いています。この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文参考訳（メタデータ） (2025-06-09T13:34:50Z)
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation [33.008513399946914]
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。 OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
論文参考訳（メタデータ） (2025-06-03T03:31:30Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.858707687894757]
大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。 MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文参考訳（メタデータ） (2025-05-26T10:18:57Z)
Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文参考訳（メタデータ） (2025-05-25T11:03:45Z)
TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文参考訳（メタデータ） (2025-05-22T12:23:30Z)
ThinkRec: Thinking-based recommendation via LLM [19.398302729633397]
ThinkRec は LLM4Rec を System 1 から System 2 (レーショナルシステム) に移行する思考ベースのフレームワークである。 ThinkRecは、キーワードの要約でアイテムメタデータを拡張し、合成推論トレースを注入するシンクアクティベーションメカニズムを導入している。 ThinkRecは、ユーザの潜在機能に基づいて専門家モデルに重みを動的に割り当てることで、個々のユーザへの推論パスを適応させ、精度とパーソナライゼーションを向上させる。
論文参考訳（メタデータ） (2025-05-21T04:25:18Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文参考訳（メタデータ） (2023-05-23T00:16:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。