論文の概要: Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs
- arxiv url: http://arxiv.org/abs/2505.19075v2
- Date: Tue, 27 May 2025 13:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.069448
- Title: Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs
- Title(参考訳): Universal Reasoner: 冷凍LLM用のシングルで構成可能なプラグイン&プレイ用Reasoner
- Authors: Jaemin Kim, Hangeol Chang, Hyunmin Hwang, Choonghan Kim, Jong Chul Ye,
- Abstract要約: Universal Reasoner (UniR) は、シングル、ライト、コンポーザブル、プラグ・アンド・プレイの推論モジュールである。
凍結したLarge Language Models (LLMs) を使って、特別な推論能力を持つことができる。
- 参考スコア(独自算出の注目度): 48.75092236641569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable general capabilities, but enhancing skills such as reasoning often demands substantial computational resources and may compromise their generalization. While Parameter-Efficient Fine-Tuning (PEFT) methods offer a more resource-conscious alternative, they typically requires retraining for each LLM backbone due to architectural dependencies. To address these challenges, here we propose Universal Reasoner (UniR) - a single, lightweight, composable, and plug-and-play reasoning module that can be used with any frozen LLM to endow it with specialized reasoning capabilities. Specifically, UniR decomposes the reward into a standalone reasoning module that is trained independently using predefined rewards, effectively translating trajectory-level signals into token-level guidance. Once trained, UniR can be combined with any frozen LLM at inference time by simply adding its output logits to those of the LLM backbone. This additive structure naturally enables modular composition: multiple UniR modules trained for different tasks can be jointly applied by summing their logits, enabling complex reasoning via composition. Experimental results on mathematical reasoning and machine translation tasks show that UniR significantly outperforms existing baseline fine-tuning methods using the Llama3.2 model. Furthermore, UniR demonstrates strong weak-to-strong generalization: reasoning modules trained on smaller models effectively guide much larger LLMs. This makes UniR a cost-efficient, adaptable, and robust solution for enhancing reasoning in LLMs without compromising their core capabilities. Code is open-sourced at https://github.com/hangeol/UniR
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい汎用能力を示しているが、推論のようなスキルの強化は、しばしばかなりの計算資源を必要とし、それらの一般化を損なう可能性がある。
パラメータ効率の良いファインチューニング(PEFT)メソッドは、よりリソースを意識した代替手段を提供するが、アーキテクチャ上の依存関係のため、通常、それぞれのLLMバックボーンを再トレーニングする必要がある。
これらの課題に対処するため、我々はUniversal Reasoner (UniR) を提案する。
具体的には、UniRは報酬を独立した推論モジュールに分解し、事前に定義された報酬を使って独立して訓練し、実質的に軌道レベルの信号をトークンレベルのガイダンスに変換する。
一度トレーニングされたUniRは、LPMバックボーンに出力ロジットを追加するだけで、任意の凍結LDMと推論時に組み合わせることができる。
異なるタスクのために訓練された複数のUniRモジュールは、ログをまとめることで共同で適用することができ、合成による複雑な推論を可能にする。
数学的推論と機械翻訳タスクの実験結果から、UniRはLlama3.2モデルを用いた既存のベースライン微調整法よりも大幅に優れていた。
さらに、UniRは強い弱強一般化を示し、より小さなモデルで訓練された推論モジュールはより大きなLLMを効果的に導く。
これにより、UniRは、コア能力を損なうことなく、LLMにおける推論を強化するためのコスト効率、適応性、堅牢なソリューションとなる。
コードはhttps://github.com/hangeol/UniRでオープンソース化される
関連論文リスト
- RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning [10.987902254146219]
我々は、推論時間における推論を適応的に強化するために、強化学習(RL)を用いた軽量ナビゲータモデルを訓練する。
RLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
論文 参考訳(メタデータ) (2025-05-20T09:43:33Z) - Reasoning Language Models: A Blueprint [12.966875494760785]
推論言語モデル(RLM)は、AIの問題解決能力を再定義した。
しかし、それらの高コスト、プロプライエタリな性質、複雑なアーキテクチャは、アクセシビリティとスケーラビリティの課題を提示している。
RLMをモジュラーフレームワークに編成する包括的青写真を提案する。
論文 参考訳(メタデータ) (2025-01-20T02:16:19Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Can Large Language Models Learn Independent Causal Mechanisms? [9.274428418715347]
大きな言語モデル(LLM)は、一般的でない設定や分散シフトで同じタスクで不足する。
本研究では,抽象変数と因果関係を学習する因果モデルにより,分布の変化に対するロバスト性の向上が示された。
論文 参考訳(メタデータ) (2024-02-04T23:04:02Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。