論文の概要: Think Only When You Need with Large Hybrid-Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.14631v2
- Date: Wed, 21 May 2025 05:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.372138
- Title: Think Only When You Need with Large Hybrid-Reasoning Models
- Title(参考訳): 大型ハイブリッド推論モデルが必要なときだけ考える
- Authors: Lingjie Jiang, Xun Wu, Shaohan Huang, Qingxiu Dong, Zewen Chi, Li Dong, Xingxing Zhang, Tengchao Lv, Lei Cui, Furu Wei,
- Abstract要約: LHRM(Large Hybrid-Reasoning Model)
ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
- 参考スコア(独自算出の注目度): 121.55211364358662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model's capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.
- Abstract(参考訳): 近年のLarge Reasoning Models (LRMs) は、最終応答を生成する前に拡張思考プロセスを組み込むことで、従来のLarge Language Models (LLMs) よりも大幅に改善された推論能力を示している。
しかし、過度に長い思考はトークンの消費とレイテンシの面でかなりのオーバーヘッドをもたらし、これは単純なクエリでは特に不要である。
本研究では,ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できる最初のモデルであるLarge Hybrid-Reasoning Models (LHRMs)を紹介する。
そこで本研究では,Hybrid Fine-Tuning(HFT)をコールドスタートとする2段階学習パイプラインを提案し,それに続いて,提案したHGPO(Hybrid Group Policy Optimization)を用いてオンライン強化学習を行い,適切な思考モードを選択することを暗黙的に学習する。
さらに,ハイブリッド思考におけるモデルの性能を定量的に評価する指標として,ハイブリッド精度(Hybrid Accuracy)を提案する。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
既存の LRM や LLM より優れているが、性能は大幅に向上している。
本研究は、拡張思考プロセスの適切な利用を再考し、ハイブリッド思考システムを構築するための確かな出発点を提供するものである。
関連論文リスト
- Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - $\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。
RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。
さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2025-05-22T17:55:43Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [45.16917994431658]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Applying Autonomous Hybrid Agent-based Computing to Difficult
Optimization Problems [56.821213236215634]
本稿では,EMASのハイブリッドバージョンを提案する。
これには、複数のハイブリッド演算子の選択と導入、およびメインアルゴリズムのハイブリッドステップを開始するためのルールの定義が含まれる。
これらのハイブリッドステップは、既存の、よく知られた、そして証明された、効率的なメタヒューリスティックスを活用し、その結果をメインのアルゴリズムに統合する。
論文 参考訳(メタデータ) (2022-10-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。