論文の概要: Replacing thinking with tool usage enables reasoning in small language models
- arxiv url: http://arxiv.org/abs/2507.05065v1
- Date: Mon, 07 Jul 2025 14:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.463526
- Title: Replacing thinking with tool usage enables reasoning in small language models
- Title(参考訳): ツール使用による思考の置き換えは、小さな言語モデルにおける推論を可能にする
- Authors: Corrado Rainone, Tim Bakker, Roland Memisevic,
- Abstract要約: 近年の進歩は、推論時間とトレーニング時間における計算のスケールアップに基づく、新しい機械学習パラダイムを確立している。
本稿では,これらのトークンをステートフルツールを用いたマルチターンインタラクショントレースとしてフォーマットすることを提案する。
各ターンで、ツールの新しい状態がモデルのコンテキストに追加され、そのジョブはカスタムDSLを介してツールを制御するのに必要なトークンを生成する。
- 参考スコア(独自算出の注目度): 2.357055571094446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances have established a new machine learning paradigm based on scaling up compute at inference time as well as at training time. In that line of work, a combination of Supervised Fine-Tuning (SFT) on synthetic demonstrations and Reinforcement Learning with Verifiable Rewards (RLVR) is used for training Large Language Models to expend extra compute during inference in the form of "thoughts" expressed in natural language. In this paper, we propose to instead format these tokens as a multi-turn interaction trace with a stateful tool. At each turn, the new state of the tool is appended to the context of the model, whose job is to generate the tokens necessary to control the tool via a custom DSL. We benchmark this approach on the problem of repairing malfunctioning Python code, and show that this constrained setup allows for faster sampling of experience and a denser reward signal, allowing even models of size up to 3B parameters to learn how to proficiently expend additional compute on the task.
- Abstract(参考訳): 近年の進歩は、推論時間とトレーニング時間における計算のスケールアップに基づく、新しい機械学習パラダイムを確立している。
その過程では、合成デモンストレーションにおけるスーパーバイザードファインチューニング(SFT)と、自然言語で表現された「思考」の形で推論中に余分な計算を行うための大規模言語モデルの訓練にRLVR(Reinforcement Learning with Verifiable Rewards)が用いられる。
本稿では,これらのトークンをステートフルツールを用いたマルチターンインタラクショントレースとしてフォーマットする。
各ターンで、ツールの新しい状態がモデルのコンテキストに追加され、そのジョブはカスタムDSLを介してツールを制御するのに必要なトークンを生成する。
我々は,Python コードの誤動作の修復に関する問題をベンチマークし,この制約された設定により,より高速なエクスペリエンスサンプリングとより高密度な報酬信号が実現され,最大 3B パラメータのモデルでさえ,タスクに付加的な計算を適切に適用する方法を学ぶことができることを示した。
関連論文リスト
- NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。
これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文 参考訳(メタデータ) (2025-04-17T16:22:32Z) - Language hooks: a modular framework for augmenting LLM reasoning that decouples tool usage from the model and its prompt [7.096646842716599]
新機能で言語モデルを拡張するための新しいフレームワークであるLanguage hooksを紹介します。
我々は、最先端のベースラインに対して我々の手法をベンチマークし、タスク認識アプローチよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-12-08T15:16:17Z) - A Study on the Calibration of In-context Learning [27.533223818505682]
In-context Learning (ICL) は静的言語モデルに適切なプロンプトで適応するための一般的な手法である。
また,ICL例の増加に伴い,モデルの誤校正が向上し,キャリブレーションの精度が向上することが確認された。
再校正手法について検討し,スケーリング結合キャリブレータが一貫した校正誤差を低減できることを見出した。
論文 参考訳(メタデータ) (2023-12-07T03:37:39Z) - Adaptive Gating in Mixture-of-Experts based Language Models [7.936874532105228]
モデルスケーリングのための有望なソリューションとして,Sparsely activated mixed-of-experts (MoE) が登場した。
本稿では,様々な専門家がトークンを処理できるフレキシブルなトレーニング戦略であるMoEで適応ゲーティングを導入する。
論文 参考訳(メタデータ) (2023-10-11T04:30:18Z) - Arithmetic with Language Models: from Memorization to Computation [3.077668143048211]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。