論文の概要: T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering
- arxiv url: http://arxiv.org/abs/2505.17427v1
- Date: Fri, 23 May 2025 03:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.788432
- Title: T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering
- Title(参考訳): T$^2$: コンテキスト質問回答のための適応型テスト時間スケーリング戦略
- Authors: Zhengyi Zhao, Shubo Zhang, Zezhong Wang, Huimin Wang, Yutian Zhao, Bin Liang, Yefeng Zheng, Binyang Li, Kam-Fai Wong, Xian Wu,
- Abstract要約: T$2$: Think-to-Thinkは質問の複雑さに基づいて推論深度を動的に適応する新しいフレームワークである。
T$2$は、質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する、という4つの重要なステップで機能する。
- 参考スコア(独自算出の注目度): 49.5489716597489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated remarkable performance in Contextual Question Answering (CQA). However, prior approaches typically employ elaborate reasoning strategies regardless of question complexity, leading to low adaptability. Recent efficient test-time scaling methods introduce budget constraints or early stop mechanisms to avoid overthinking for straightforward questions. But they add human bias to the reasoning process and fail to leverage models' inherent reasoning capabilities. To address these limitations, we present T$^2$: Think-to-Think, a novel framework that dynamically adapts reasoning depth based on question complexity. T$^2$ leverages the insight that if an LLM can effectively solve similar questions using specific reasoning strategies, it can apply the same strategy to the original question. This insight enables to adoption of concise reasoning for straightforward questions while maintaining detailed analysis for complex problems. T$^2$ works through four key steps: decomposing questions into structural elements, generating similar examples with candidate reasoning strategies, evaluating these strategies against multiple criteria, and applying the most appropriate strategy to the original question. Experimental evaluation across seven diverse CQA benchmarks demonstrates that T$^2$ not only achieves higher accuracy than baseline methods but also reduces computational overhead by up to 25.2\%.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は,文脈質問応答(CQA)において顕著な性能を示している。
しかし、従来のアプローチでは、質問の複雑さに関係なく精巧な推論戦略を採用しており、適応性は低い。
最近の効率的なテストタイムスケーリング手法では、予算の制約や、簡単な質問に対する過度な考えを避けるための早期停止機構が導入されている。
しかし、彼らは推論プロセスに人間のバイアスを加え、モデル固有の推論能力を活用することに失敗します。
これらの制限に対処するため、T$^2$: Think-to-Thinkという、質問複雑性に基づいた推論深度を動的に適応する新しいフレームワークを提案する。
T$^2$ は LLM が特定の推論戦略を用いて類似の問題を効果的に解くことができれば、元の問題に同じ戦略を適用することができるという洞察を利用する。
この洞察は、複雑な問題に対する詳細な分析を維持しながら、簡単な質問に対する簡潔な推論の採用を可能にする。
T$^2$は4つの重要なステップで機能する: 質問を構造的要素に分解し、候補推論戦略と同じような例を生成し、これらの戦略を複数の基準に対して評価し、元の質問に最も適切な戦略を適用する。
7つの異なるCQAベンチマークによる実験的評価は、T$^2$はベースライン法よりも高い精度を達成するだけでなく、計算オーバーヘッドを最大25.2\%削減することを示した。
関連論文リスト
- Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。