論文の概要: Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data
- arxiv url: http://arxiv.org/abs/2601.11038v1
- Date: Fri, 16 Jan 2026 07:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.386358
- Title: Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data
- Title(参考訳): LLM合成選好データを用いた予算を考慮した随時推論
- Authors: Xuanming Zhang, Shwan Ashrafi, Aziza Mirsaidova, Amir Rezaeian, Miguel Ballesteros, Lydia B. Chilton, Zhou Yu, Dan Roth,
- Abstract要約: 計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
- 参考スコア(独自算出の注目度): 57.996437077411315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the reasoning behavior of large language models (LLMs) under limited computation budgets. In such settings, producing useful partial solutions quickly is often more practical than exhaustive reasoning, which incurs high inference costs. Many real-world tasks, such as trip planning, require models to deliver the best possible output within a fixed reasoning budget. We introduce an anytime reasoning framework and the Anytime Index, a metric that quantifies how effectively solution quality improves as reasoning tokens increase. To further enhance efficiency, we propose an inference-time self-improvement method using LLM-synthesized preference data, where models learn from their own reasoning comparisons to produce better intermediate solutions. Experiments on NaturalPlan (Trip), AIME, and GPQA datasets show consistent gains across Grok-3, GPT-oss, GPT-4.1/4o, and LLaMA models, improving both reasoning quality and efficiency under budget constraints.
- Abstract(参考訳): 計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
このような環境では、有用な部分解を迅速に生成することは、しばしば排他的推論よりも実用的であり、高い推論コストを発生させる。
旅行計画のような現実世界の多くのタスクは、固定された推論予算内で最高のアウトプットを提供するためにモデルを必要とする。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
そこで,LLM合成選好データを用いた推論時間自己改善手法を提案する。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示し、予算制約下での推論品質と効率を改善した。
関連論文リスト
- Peering Inside the Black Box: Uncovering LLM Errors in Optimization Modelling through Component-Level Evaluation [0.0]
大規模言語モデル(LLM)のためのコンポーネントレベル評価フレームワークを提案する。
GPT-5、LLaMA 3.1命令、DeepSeek Mathを様々な複雑さの最適化問題で評価する。
その結果、GPT-5は他のモデルよりも一貫して優れており、チェーン・オブ・シンク、自己整合性、モジュール性がより効果的であることを証明している。
論文 参考訳(メタデータ) (2025-10-19T17:47:59Z) - BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens [33.607723102172194]
BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。
我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2025-08-24T03:17:50Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。
Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T01:56:29Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。