論文の概要: The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning
- arxiv url: http://arxiv.org/abs/2603.04415v1
- Date: Wed, 04 Feb 2026 04:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.192553
- Title: The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning
- Title(参考訳): 思考境界:デュアルチューニングによるマルチモーダルタスクの推論適合性の定量化
- Authors: Ruobing Zheng, Tianqi Li, Jianing Li, Qingpei Guo, Yi Yuan, Jingdong Chen,
- Abstract要約: 提案するDual Tuningは、推論が目標タスクに対して肯定的な利得をもたらすかどうかを評価するためのフレームワークである。
多様なマルチモーダルタスクにおける推論学習の適性を評価するために,「シンキング境界」を確立した。
我々の研究は、適切なデータとトレーニング戦略を特定するための実践的なガイダンスを提供する「すべての理由」パラダイムに挑戦する。
- 参考スコア(独自算出の注目度): 46.61419294791218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning-enhanced Large Language Models (LLMs) have demonstrated remarkable advances in complex tasks such as mathematics and coding, their effectiveness across universal multimodal scenarios remains uncertain. The trend of releasing parallel "Instruct" and "Thinking" models by leading developers serves merely as a resource-intensive workaround, stemming from the lack of a criterion for determining when reasoning is truly beneficial. In this paper, we propose Dual Tuning, a framework designed to assess whether reasoning yields positive gains for target tasks under given base models and datasets. By jointly fine-tuning on paired Chain-of-Thought (CoT) and Direct-Answer (DA) data under controlled prompts, we systematically quantify and compare the gains of both training modes using the proposed metrics, and establish the "Thinking Boundary" to evaluate the suitability of reasoning training across diverse multimodal tasks, including spatial, mathematical, and multi-disciplinary domains. We further explore the impact of reinforcement training and thinking patterns on reasoning suitability, and validate whether the "Thinking Boundary" can guide data refinement. Our findings challenge the "reasoning-for-all" paradigm, providing practical guidance for identifying appropriate data and training strategies, and motivating the development of resource-efficient, adaptive auto-think systems.
- Abstract(参考訳): 推論強化大言語モデル (LLMs) は数学やコーディングといった複雑なタスクにおいて顕著な進歩を見せているが、普遍的マルチモーダルシナリオにおけるそれらの有効性はいまだに不確実である。
リードディベロッパによるパラレルな"インストラクション"と"シンキング"モデルのリリース傾向は、推論が真に有益であるかどうかを決定する基準が欠如していることから、単にリソース集約的な回避策として機能するだけである。
本稿では,与えられたベースモデルとデータセットの下での目標タスクに対して,推論が正の利得をもたらすかどうかを評価するためのフレームワークであるDual Tuningを提案する。
制御されたプロンプト下での2つのChain-of-Thought(CoT)データとDirect-Answer(DA)データを協調的に微調整することにより、提案手法を用いて両方のトレーニングモードの利得を体系的に定量化し比較し、「シンキング境界」を確立し、空間、数学的、多分野の様々なマルチモーダルタスクにおける推論トレーニングの適合性を評価する。
さらに、強化訓練と思考パターンが推論適性に及ぼす影響について検討し、「シンキング境界」がデータ洗練を導くことができるかどうかを検証する。
我々の研究は、適切なデータとトレーニング戦略を特定するための実践的なガイダンスを提供し、資源効率の良い適応型自動思考システムの開発を動機付ける「すべてのための推論」パラダイムに挑戦する。
関連論文リスト
- Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings [44.77164359074224]
マルチモーダル大規模言語モデル(MLLM)は、ユニバーサル・マルチモーダル・エンベディング(UME)の進展に欠かせないものとなっている。
近年の研究では、生成的連鎖(CoT)推論を取り入れることで、タスク固有の表現が大幅に向上することが示されている。
本稿では,Embedder-Guided Reinforcement Learning (EG-RL)を統合した推論駆動型UMEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-14T15:35:03Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - Generative Representational Learning of Foundation Models for Recommendation [45.88034661002164]
RecFoundは、レコメンデーションファウンデーションモデルのための生成的表現型学習フレームワークである。
生成タスクと埋め込みタスクの両方をカバーするレコメンデーションファンデーションモデルのための、最初の包括的なデータセットを構築した。
RecFoundはさまざまなレコメンデーションタスクで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-13T17:54:12Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。