論文の概要: Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction
- arxiv url: http://arxiv.org/abs/2601.03672v1
- Date: Wed, 07 Jan 2026 07:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.154042
- Title: Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction
- Title(参考訳): Sandwich Reasoning: 低レイテンシクエリ訂正に対するAnswer-Reasoning-Answerアプローチ
- Authors: Chen Zhang, Kepu Zhang, Jiatong Zhang, Xiao Zhang, Jun Xu,
- Abstract要約: Chain-of-Thought (CoT)推論は精度を向上するが、リアルタイムクエリの修正には不当な遅延が発生する。
Sandwich Reasoning (SandwichR) という手法を提案する。
我々は,SandwichRが標準CoTに匹敵するSOTA精度を実現し,40~70%の遅延低減を実現していることを示す。
- 参考スコア(独自算出の注目度): 14.620900910188382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query correction is a critical entry point in modern search pipelines, demanding high accuracy strictly within real-time latency constraints. Chain-of-Thought (CoT) reasoning improves accuracy but incurs prohibitive latency for real-time query correction. A potential solution is to output an answer before reasoning to reduce latency; however, under autoregressive decoding, the early answer is independent of subsequent reasoning, preventing the model from leveraging its reasoning capability to improve accuracy. To address this issue, we propose Sandwich Reasoning (SandwichR), a novel approach that explicitly aligns a fast initial answer with post-hoc reasoning, enabling low-latency query correction without sacrificing reasoning-aware accuracy. SandwichR follows an Answer-Reasoning-Answer paradigm, producing an initial correction, an explicit reasoning process, and a final refined correction. To align the initial answer with post-reasoning insights, we design a consistency-aware reinforcement learning (RL) strategy: a dedicated consistency reward enforces alignment between the initial and final corrections, while margin-based rejection sampling prioritizes borderline samples where reasoning drives the most impactful corrective gains. Additionally, we construct a high-quality query correction dataset, addressing the lack of specialized benchmarks for complex query correction. Experimental results demonstrate that SandwichR achieves SOTA accuracy comparable to standard CoT while delivering a 40-70% latency reduction, resolving the latency-accuracy trade-off in online search.
- Abstract(参考訳): クエリの修正は、現代の検索パイプラインにおいて重要なエントリポイントであり、リアルタイムレイテンシの制約の中で厳密に高い精度を要求する。
Chain-of-Thought (CoT)推論は精度を向上するが、リアルタイムクエリの修正には不当な遅延が発生する。
潜在的な解決策は、遅延を減らすために推論の前に答えを出力することである。しかし、自己回帰的復号化の下では、初期解はその後の推論とは独立であり、モデルが推論能力を活用して精度を向上させるのを妨げている。
この問題に対処するためにSandwich Reasoning (SandwichR) を提案する。これは、高速な初期解とポストホック推論を明示的に整合させ、推論の精度を犠牲にすることなく、低遅延クエリの補正を可能にする新しいアプローチである。
SandwichR は Answer-Reasoning-Answer パラダイムに従い、初期修正、明示的な推論プロセス、最終的な修正を行う。
本手法では,初期値と最終値との整合性を強制する集中的整合性学習(RL)戦略を設計し,その一方で,有意な正解率を導出する境界線標本をマージンベース拒否サンプリングで優先する。
さらに,複雑なクエリ訂正のための特別なベンチマークの欠如に対処するため,高品質なクエリ補正データセットを構築した。
実験の結果、SandwichRは標準のCoTに匹敵するSOTA精度を実現し、40-70%のレイテンシ低減を実現し、オンライン検索における遅延精度のトレードオフを解消した。
関連論文リスト
- In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。