論文の概要: Atom of Thoughts for Markov LLM Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2502.12018v2
- Date: Sun, 23 Mar 2025 19:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:48.715053
- Title: Atom of Thoughts for Markov LLM Test-Time Scaling
- Title(参考訳): マルコフLLMテストタイムスケーリングのための思考の原子
- Authors: Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング時間スケーリングによって優れたパフォーマンスを達成する。
推論の規模が大きくなるにつれて、既存のテストタイムスケーリング手法は、蓄積した履歴情報に悩まされる。
複雑な推論は、独立して自己完結した一連のサブクエストを解くことで達成できる。
- 参考スコア(独自算出の注目度): 18.288669306091155
- License:
- Abstract: Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during inference. However, as the scale of reasoning increases, existing test-time scaling methods suffer from accumulated historical information, which not only wastes computational resources but also interferes with effective reasoning. To address this issue, we observe that complex reasoning can be achieved by solving a series of independent and self-contained subquestions. These subquestions are essentially \textit{atomic questions}, exhibiting the memoryless property similar to Markov processes. Based on this observation, we propose Atom of Thoughts (\our), where each state transition consists of decomposing the current question into a dependency-based directed acyclic graph and contracting its subquestions, forming a simplified question that maintains answer equivalence with the original problem. This answer preservation enables the iterative \textit{decomposition-contraction} process to naturally form a meaningful Markov reasoning process. Furthermore, these atomic states can be seamlessly integrated into existing test-time scaling methods, enabling \our to serve as a plug-in enhancement for improving reasoning capabilities. Experiments across six benchmarks demonstrate the effectiveness of \our both as a standalone framework and a plug-in enhancement. Notably, on HotpotQA, when applied to gpt-4o-mini, \our achieves an \textbf{80.6\%} F1 score, surpassing o3-mini by \textbf{3.4\%} and DeepSeek-R1 by \textbf{10.6\%}. The code is available at \href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングタイムのスケーリングを通じて優れたパフォーマンスを達成し、テストタイムのスケーリングは、推論中に効果的な推論を行うことによって、その能力をさらに強化する。
しかし、推論の規模が大きくなるにつれて、既存のテストタイムスケーリング手法は、計算資源を浪費するだけでなく、効果的な推論にも干渉する、蓄積した履歴情報に悩まされる。
この問題に対処するために、我々は、独立した、自己完結した一連のサブクエストを解くことで、複雑な推論が達成可能であることを観察する。
これらのサブクエストは基本的には \textit{atomic questions} であり、マルコフ過程に類似したメモリレス特性を示す。
この観察に基づいて、各状態遷移は、現在の質問を依存性ベースの有向非循環グラフに分解し、そのサブクエストを縮小し、元の問題と回答等価性を維持する単純化された質問を形成する。
この解保存により、反復的 \textit{decomposition-contract} 過程は自然に有意義なマルコフ推論過程を形成することができる。
さらに、これらの原子状態は既存のテスト時間スケーリングメソッドにシームレスに統合することができ、推論機能を改善するためのプラグイン拡張として機能することができる。
6つのベンチマークの実験では、スタンドアロンフレームワークとプラグイン拡張の両方として、Shaourの有効性が示されている。
特にHotpotQAでは、gpt-4o-miniに適用すると、 \our は \textbf{80.6\%} F1 スコアを達成し、o3-mini を \textbf{3.4\%} で、DeepSeek-R1 を \textbf{10.6\%} で上回る。
コードは \href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom} で公開されている。
関連論文リスト
- Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [38.736190591684]
我々は、原子レベルで正確な異種知識推論を行うための大規模な言語モデルのためのフレームワークAtomRを紹介する。
AtomRは複雑な質問を、各葉ノードが原子知識演算子に対応する推論木に分解する。
推論実行段階では、AtomRは各原子知識演算子を実行し、弾力的に異種源から原子レベルの知識を選択し、取得し、操作する。
論文 参考訳(メタデータ) (2024-11-25T15:35:51Z) - AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。
AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。
AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-11-18T11:54:58Z) - Atomic Fact Decomposition Helps Attributed Question Answering [30.75332718824254]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - Graph Algorithms with Neutral Atom Quantum Processors [31.546387965618333]
我々は中性原子量子処理ユニット(QPU)上で動作するグラフ問題に対する量子アルゴリズムの進歩を概観する。
最近導入された埋め込みと問題解決技術について論じる。
我々は、中性原子QPUのスケーラビリティ、制御可能性、繰り返し率の向上に重点を置いて、ハードウェアの継続的な進歩を明らかにした。
論文 参考訳(メタデータ) (2024-03-18T16:30:42Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - ARISE: ApeRIodic SEmi-parametric Process for Efficient Markets without
Periodogram and Gaussianity Assumptions [91.3755431537592]
我々は、効率的な市場を調査するためのApeRI-miodic(ARISE)プロセスを提案する。
ARISEプロセスは、いくつかの既知のプロセスの無限サムとして定式化され、周期スペクトル推定を用いる。
実際に,実世界の市場の効率性を明らかにするために,ARISE関数を適用した。
論文 参考訳(メタデータ) (2021-11-08T03:36:06Z) - Intervention Efficient Algorithm for Two-Stage Causal MDPs [15.838256272508357]
本稿では,報酬を生成する因果グラフに対応するマルコフ決定過程(MDP)について検討する。
この設定では、学習者の目標は、各状態の変数に介入することで高い報酬をもたらす原子的介入を特定することである。
最近の因果関係の枠組みを一般化し、この研究は2段階の因果関係のMDPに対する(単純な)後悔の最小化保証を開発する。
論文 参考訳(メタデータ) (2021-11-01T12:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。