論文の概要: Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
- arxiv url: http://arxiv.org/abs/2501.17974v1
- Date: Wed, 29 Jan 2025 20:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:08.073931
- Title: Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization
- Title(参考訳): よりスマートに考える - 推論を意識したアダプティブ推論
- Authors: Zishun Yu, Tengyu Xu, Di Jin, Karthik Abinav Sankararaman, Yun He, Wenxuan Zhou, Zhouhao Zeng, Eryk Helenowski, Chen Zhu, Sinong Wang, Hao Ma, Han Fang,
- Abstract要約: 本研究では,モデルが推論予算の制約に対して実用性として定式化することで,推論予算を認識できるようにする手法を提案する。
簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを理解し、より難しいものに推論予算を割り当てる。
これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
- 参考スコア(独自算出の注目度): 48.5702580429946
- License:
- Abstract: Solving mathematics problems has been an intriguing capability of large language models, and many efforts have been made to improve reasoning by extending reasoning length, such as through self-correction and extensive long chain-of-thoughts. While promising in problem-solving, advanced long reasoning chain models exhibit an undesired single-modal behavior, where trivial questions require unnecessarily tedious long chains of thought. In this work, we propose a way to allow models to be aware of inference budgets by formulating it as utility maximization with respect to an inference budget constraint, hence naming our algorithm Inference Budget-Constrained Policy Optimization (IBPO). In a nutshell, models fine-tuned through IBPO learn to ``understand'' the difficulty of queries and allocate inference budgets to harder ones. With different inference budgets, our best models are able to have a $4.14$\% and $5.74$\% absolute improvement ($8.08$\% and $11.2$\% relative improvement) on MATH500 using $2.16$x and $4.32$x inference budgets respectively, relative to LLaMA3.1 8B Instruct. These improvements are approximately $2$x those of self-consistency under the same budgets.
- Abstract(参考訳): 数学の問題を解くことは、大きな言語モデルの興味深い能力であり、自己補正や長い思考の連鎖など、推論の長さを延ばすことによって推論を改善するために多くの努力がなされてきた。
問題解決において有望な一方で、高度なロング推論チェーンモデルは望ましくない単一モードの振る舞いを示し、自明な質問は不要に退屈なロングチェーンの思考を必要とする。
本研究では,推論予算制約に対するユーティリティ最大化を定式化することにより,モデルが推論予算に気付くようにする方法を提案し,そのアルゴリズムをIBPO(Inference Budget-Constrained Policy Optimization)と命名する。
簡単に言えば、IBPOを通じて微調整されたモデルは、クエリの難しさを‘理解’し、推論予算を難しいものに割り当てることを学ぶ。
推論予算が異なるため、私たちの最高のモデルは、LLaMA3.1 8Bインストラクトと比較して、それぞれ2.16$xと4.32$xの推論予算を使用してMATH500に対して4.14$\%と5.74$\%の絶対的な改善(8.08$\%と11.2$\%の相対的な改善)を行うことができる。
これらの改善は、同じ予算の下での自己整合性(self-consistency)の約2ドルである。
関連論文リスト
- Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
大規模言語モデル(LLM)学習における推論スケーリング法則と計算最適推論について検討する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
以上の結果から,Llemma-7Bのようなより小さなモデルでは,計算予算が同じであれば,より大きなモデルよりも優れた性能が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Stochastic Multi-round Submodular Optimization with Budget [7.902059578326225]
我々は、アイテムの部分集合上で定義された単調部分モジュラー目的関数の和を、複数のラウンドで適応的に最大化することを目指している。
目的関数はイベントの実現にも依存しており、全てのラウンドで選択できるアイテムの総数は、限られた予算で制限されている。
論文 参考訳(メタデータ) (2024-04-21T18:24:43Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Curriculum learning for multilevel budgeted combinatorial problems [7.804994311050265]
マルチレベル最適化問題はそれらの一般化であり、複数のプレイヤーが逐次決定を下す状況を含んでいる。
グラフ上のゼロサムゲームにおいて、2人のプレイヤーが関与する多段階の予算問題を解決するための価値ベース手法を考案する。
我々のフレームワークは単純なカリキュラムに基づいており、もしエージェントが$B$までの予算を持つインスタンスの価値を見積もる方法を知っているなら、可能なすべての余剰状態の方向に関係なく、予算が$B+1$のインスタンスを時間内に解決することができる。
論文 参考訳(メタデータ) (2020-07-07T01:09:37Z) - From Checking to Inference: Actual Causality Computations as
Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。
8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文 参考訳(メタデータ) (2020-06-05T10:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。