論文の概要: Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
- arxiv url: http://arxiv.org/abs/2507.00606v1
- Date: Tue, 01 Jul 2025 09:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.561461
- Title: Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
- Title(参考訳): 推論の混合:適応的戦略で大規模言語モデルに推論を教える
- Authors: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang,
- Abstract要約: 推論の混合は、様々な推論戦略を大きな言語モデルに組み込む。
MoRはタスク固有のプロンプトの必要性を排除し、多様なタスクに対する堅牢な推論のための一般化可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.7519234849348075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning.Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.
- Abstract(参考訳): 大型言語モデル(LLM)は、Chain-of-Thought(CoT)やTree-of-Thought(ToT)といった高度なプロンプト技術を通じて複雑なタスクに優れるが、手作業によるタスク固有のプロンプトに依存しているため、適応性と効率が制限される。
外部のプロンプトエンジニアリングを使わずに、自律的なタスク適応推論のための多様な推論戦略をLLMに組み込むトレーニングフレームワークであるMixture of Reasoning(MoR)を紹介する。
思考生成、GPT-4oやSFTデータセット構築のようなモデルによる推論チェーンテンプレートの作成、教師付き微調整のためのベンチマークデータセットとのペアリングテンプレートの実験では、MoR150はベースラインに比べて0.730(2.2%改善)、0.734(13.5%改善)を達成し、MoRはパフォーマンスを大幅に向上した。
MoRはタスク固有のプロンプトの必要性を排除し、多様なタスクに対する堅牢な推論のための一般化可能なソリューションを提供する。
関連論文リスト
- Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - AdaReasoner: Adaptive Reasoning Enables More Flexible Thinking in Large Language Models [32.51746551988431]
AdaReasoner は LLM に依存しないプラグインで,任意の LLM が適応推論設定を自動化するように設計されている。
AdaReasonerは強化学習(RL)フレームワークを使用して訓練され、因子化されたアクション空間とターゲット探索戦略を組み合わせた。
標準ベースラインを一貫して上回り、分布外ロバスト性を保ち、調整されたプロンプトを通じて知識集約的なタスクに利益をもたらす。
論文 参考訳(メタデータ) (2025-05-22T22:06:11Z) - Modularization is Better: Effective Code Generation with Modular Prompting [9.955541341324007]
本稿では,大規模言語モデルのコード生成性能を向上させるため,MoTと呼ばれる新しいプロンプト手法を提案する。
MoTはモジュール化の原則を利用して、複雑なプログラミング問題をより小さく独立した推論ステップに分解する。
MLRグラフを使用して推論プロセスを構築し、階層的に推論ステップを編成する。
論文 参考訳(メタデータ) (2025-03-16T12:23:23Z) - LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。