Fugu-MT 論文翻訳(概要): Atom of Thoughts for Markov LLM Test-Time Scaling

論文の概要: Atom of Thoughts for Markov LLM Test-Time Scaling

arxiv url: http://arxiv.org/abs/2502.12018v2
Date: Sun, 23 Mar 2025 19:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.51052
Title: Atom of Thoughts for Markov LLM Test-Time Scaling
Title（参考訳）: マルコフLLMテストタイムスケーリングのための思考の原子
Authors: Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo,
Abstract要約: 大規模言語モデル(LLM)は、トレーニング時間スケーリングによって優れたパフォーマンスを達成する。推論の規模が大きくなるにつれて、既存のテストタイムスケーリング手法は、蓄積した履歴情報に悩まされる。複雑な推論は、独立して自己完結した一連のサブクエストを解くことで達成できる。
参考スコア（独自算出の注目度）: 18.288669306091155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during inference. However, as the scale of reasoning increases, existing test-time scaling methods suffer from accumulated historical information, which not only wastes computational resources but also interferes with effective reasoning. To address this issue, we observe that complex reasoning can be achieved by solving a series of independent and self-contained subquestions. These subquestions are essentially \textit{atomic questions}, exhibiting the memoryless property similar to Markov processes. Based on this observation, we propose Atom of Thoughts (\our), where each state transition consists of decomposing the current question into a dependency-based directed acyclic graph and contracting its subquestions, forming a simplified question that maintains answer equivalence with the original problem. This answer preservation enables the iterative \textit{decomposition-contraction} process to naturally form a meaningful Markov reasoning process. Furthermore, these atomic states can be seamlessly integrated into existing test-time scaling methods, enabling \our to serve as a plug-in enhancement for improving reasoning capabilities. Experiments across six benchmarks demonstrate the effectiveness of \our both as a standalone framework and a plug-in enhancement. Notably, on HotpotQA, when applied to gpt-4o-mini, \our achieves an \textbf{80.6\%} F1 score, surpassing o3-mini by \textbf{3.4\%} and DeepSeek-R1 by \textbf{10.6\%}. The code is available at \href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングタイムのスケーリングを通じて優れたパフォーマンスを達成し、テストタイムのスケーリングは、推論中に効果的な推論を行うことによって、その能力をさらに強化する。しかし、推論の規模が大きくなるにつれて、既存のテストタイムスケーリング手法は、計算資源を浪費するだけでなく、効果的な推論にも干渉する、蓄積した履歴情報に悩まされる。この問題に対処するために、我々は、独立した、自己完結した一連のサブクエストを解くことで、複雑な推論が達成可能であることを観察する。これらのサブクエストは基本的には \textit{atomic questions} であり、マルコフ過程に類似したメモリレス特性を示す。この観察に基づいて、各状態遷移は、現在の質問を依存性ベースの有向非循環グラフに分解し、そのサブクエストを縮小し、元の問題と回答等価性を維持する単純化された質問を形成する。この解保存により、反復的 \textit{decomposition-contract} 過程は自然に有意義なマルコフ推論過程を形成することができる。さらに、これらの原子状態は既存のテスト時間スケーリングメソッドにシームレスに統合することができ、推論機能を改善するためのプラグイン拡張として機能することができる。 6つのベンチマークの実験では、スタンドアロンフレームワークとプラグイン拡張の両方として、Shaourの有効性が示されている。特にHotpotQAでは、gpt-4o-miniに適用すると、 \our は \textbf{80.6\%} F1 スコアを達成し、o3-mini を \textbf{3.4\%} で、DeepSeek-R1 を \textbf{10.6\%} で上回る。コードは \href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom} で公開されている。

関連論文リスト

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。 PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文参考訳（メタデータ） (2025-05-25T15:17:57Z)
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。 LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-19T16:26:02Z)
Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文参考訳（メタデータ） (2025-04-07T16:51:45Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? [68.72260770171212]
本稿では,最小のセマンティック・アトミックステップから構成される自己構造的思考の連鎖(SCoT)のパラダイムを提案する。本手法は, 複雑なタスクに対して認知的CoT構造を生成するだけでなく, 過度に考える現象を緩和する。我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-03-08T15:23:47Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [38.736190591684]
我々は、原子レベルで正確な異種知識推論を行うための大規模な言語モデルのためのフレームワークAtomRを紹介する。 AtomRは複雑な質問を、各葉ノードが原子知識演算子に対応する推論木に分解する。推論実行段階では、AtomRは各原子知識演算子を実行し、弾力的に異種源から原子レベルの知識を選択し、取得し、操作する。
論文参考訳（メタデータ） (2024-11-25T15:35:51Z)
AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。 AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。 AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文参考訳（メタデータ） (2024-11-18T11:54:58Z)
Atomic Fact Decomposition Helps Attributed Question Answering [30.75332718824254]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文参考訳（メタデータ） (2024-10-22T05:25:54Z)
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。 textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文参考訳（メタデータ） (2024-08-25T01:45:53Z)
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文参考訳（メタデータ） (2024-06-14T13:28:03Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-05T11:56:30Z)
Time-aware Multiway Adaptive Fusion Network for Temporal Knowledge Graph Question Answering [10.170042914522778]
我々は,新しい textbf Time-aware textbfMultiway textbfAdaptive (textbfTMA) 融合ネットワークを提案する。それぞれの質問に対して、TMAはまずKGから関連する概念を抽出し、それから多方向適応モジュールに供給する。この表現は、最終的な予測を生成するために、事前訓練されたKG埋め込みに組み込むことができる。
論文参考訳（メタデータ） (2023-02-24T09:29:40Z)
Augmenting Pre-trained Language Models with QA-Memory for Open-Domain Question Answering [38.071375112873675]
質問応答型エンコーダデコーダモデルの提案と事前学習戦略について述べる。これにより、シングルホップのQAタスクにおいて、以前のQA検索方法よりも優れたエンドツーエンドシステムが得られる。
論文参考訳（メタデータ） (2022-04-10T02:33:00Z)
Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文参考訳（メタデータ） (2022-02-08T16:39:57Z)
Intervention Efficient Algorithm for Two-Stage Causal MDPs [15.838256272508357]
本稿では,報酬を生成する因果グラフに対応するマルコフ決定過程(MDP)について検討する。この設定では、学習者の目標は、各状態の変数に介入することで高い報酬をもたらす原子的介入を特定することである。最近の因果関係の枠組みを一般化し、この研究は2段階の因果関係のMDPに対する(単純な)後悔の最小化保証を開発する。
論文参考訳（メタデータ） (2021-11-01T12:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。