Fugu-MT 論文翻訳(概要): Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling

論文の概要: Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling

arxiv url: http://arxiv.org/abs/2505.22290v1
Date: Wed, 28 May 2025 12:28:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.593392
Title: Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling
Title（参考訳）: 解決不可能さを再考する: In-Context Searchがテスト時間スケーリングに遭遇する時
Authors: Fanzeng Xia, Yidong Luo, Tinko Sebastian Bartels, Yaqi Xu, Tongxin Li,
Abstract要約: 本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
参考スコア（独自算出の注目度）: 1.219841051166348
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research has highlighted that Large Language Models (LLMs), even when trained to generate extended long reasoning steps, still face significant challenges on hard reasoning problems. However, much of the existing literature relies on direct prompting with simple in-context learning examples for evaluation, which largely overlooks advanced techniques to elicit LLMs' deliberate reasoning before drawing conclusions that LLMs hit a performance ceiling. In this paper, we systematically explore the combined potential of in-context search and test-time scaling on super hard reasoning tasks. We find that by employing advanced in-context search prompting to LLMs augmented with internal scaling, one can achieve transformative performance breakthroughs on tasks previously deemed "unsolvable" (e.g., reported success rates below 5%). We provide both empirical results and theoretical analysis of how this combination can unleash LLM reasoning capabilities: i) Empirically, on controlled NP-hard tasks and complex real-world planning benchmarks, our approach achieves up to a 30x improvement in success rates compared to previously reported results without any external mechanisms; ii) Theoretically, we show that in-context search prompting, when combined with internal scaling, significantly extends the complexity class of solvable reasoning problems. These findings challenge prevailing assumptions about the limitations of LLMs on complex tasks, indicating that current evaluation paradigms systematically underestimate their true potential. Our work calls for a critical reassessment of how LLM reasoning is benchmarked and a more robust evaluation strategy that fully captures the true capabilities of contemporary LLMs, which can lead to a better understanding of their operational reasoning boundaries in real-world deployments.
Abstract（参考訳）: 最近の研究は、長期の推論ステップを生成する訓練を受けたとしても、難しい推論問題に対して大きな課題に直面していることを強調している。しかし、既存の文献の多くは、LCMが性能天井に到達したという結論を出す前に、LCMの意図的な推論を引き出す高度な技術を見落としている、単純な文脈内学習例による直接的プロンプトに頼っている。本稿では,超硬推論タスクにおけるコンテキスト内探索とテスト時間スケーリングの併用の可能性について,体系的に検討する。従来の「解決不可能」なタスク(例:5%未満の成功率の報告)における変換性能のブレークスルーを達成することができる。実験結果と、この組み合わせがLLM推論能力を解き放つ方法に関する理論的分析の両方を提供する。 i) NP-hardタスクと複雑な実世界の計画ベンチマークに基づいて, これまでに報告した結果の外部機構のない結果と比較して, 成功率を最大30倍に向上させる。二理論的には、内部スケーリングと組み合わせることで、解決可能な推論問題の複雑性クラスを著しく拡張することを示す。これらの知見は,LLMの複雑な課題に対する限界に関する仮定に挑戦し,現在の評価パラダイムがそれらの真の可能性を体系的に過小評価していることを示す。我々の研究は、LLM推論がどのようにベンチマークされているかの批判的な再評価と、LLMの真の能力をフルに捉えたより堅牢な評価戦略を求めている。

関連論文リスト

Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets [13.111181135818184]
大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
論文参考訳（メタデータ） (2025-09-16T14:48:46Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:53Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。 RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。 RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T03:54:57Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文参考訳（メタデータ） (2024-06-15T13:16:44Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。