論文の概要: Think Only When You Need with Large Hybrid-Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.14631v2
- Date: Wed, 21 May 2025 05:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.372138
- Title: Think Only When You Need with Large Hybrid-Reasoning Models
- Title(参考訳): 大型ハイブリッド推論モデルが必要なときだけ考える
- Authors: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei,
- Abstract要約: LHRM(Large Hybrid-Reasoning Model)
ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
- 参考スコア(独自算出の注目度): 121.55211364358662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.
- Abstract(参考訳): 近年のLarge Reasoning Models (LRMs) は、最終応答を生成する前に拡張思考プロセスを組み込むことで、従来のLarge Language Models (LLMs) よりも大幅に改善された推論能力を示している。
しかし、過度に長い思考はトークンの消費とレイテンシの面でかなりのオーバーヘッドをもたらし、これは単純なクエリでは特に不要である。
本研究では,ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できる最初のモデルであるLarge Hybrid-Reasoning Models (LHRMs)を紹介する。
そこで本研究では,Hybrid Fine-Tuning(HFT)をコールドスタートとする2段階学習パイプラインを提案し,それに続いて,提案したHGPO(Hybrid Group Policy Optimization)を用いてオンライン強化学習を行い,適切な思考モードを選択することを暗黙的に学習する。
さらに,ハイブリッド思考におけるモデルの性能を定量的に評価する指標として,ハイブリッド精度(Hybrid Accuracy)を提案する。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
既存の LRM や LLM より優れているが、性能は大幅に向上している。
本研究は、拡張思考プロセスの適切な利用を再考し、ハイブリッド思考システムを構築するための確かな出発点を提供するものである。
関連論文リスト
- Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [45.16917994431658]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Applying Autonomous Hybrid Agent-based Computing to Difficult
Optimization Problems [56.821213236215634]
本稿では,EMASのハイブリッドバージョンを提案する。
これには、複数のハイブリッド演算子の選択と導入、およびメインアルゴリズムのハイブリッドステップを開始するためのルールの定義が含まれる。
これらのハイブリッドステップは、既存の、よく知られた、そして証明された、効率的なメタヒューリスティックスを活用し、その結果をメインのアルゴリズムに統合する。
論文 参考訳(メタデータ) (2022-10-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。