論文の概要: Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum
- arxiv url: http://arxiv.org/abs/2508.18673v1
- Date: Tue, 26 Aug 2025 04:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.681924
- Title: Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum
- Title(参考訳): バランスのとれた難易度のある教示--Prompt Curriculumによるマルチモーダル・チェーン・オブ・ワットにおける推論の高揚
- Authors: Xinglong Yang, Quan Feng, Zhongying Pan, Xiang Chen, Yu Tian, Wentong Li, Shuofei Qiao, Yuxia Geng, Xingyu Zhao, Sheng-Jun Huang,
- Abstract要約: MCoT(Multimodal Chain-of-Thought)プロンプトは、ランダムまたは手動で選択された例によって制限されることが多い。
本稿では,「バランスのとれた教養」という教育原理に着想を得た新しい枠組みを提案する。
提案手法は, モデル認識難易度を, アクティブな学習環境における予測不一致による定量化と, 任意のモデルから独立して各質問画像対の難易度を測定する内在的なサンプル複雑性の2つの相補的信号を統合する。
- 参考スコア(独自算出の注目度): 39.57901536686932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of Multimodal Chain-of-Thought (MCoT) prompting is often limited by the use of randomly or manually selected examples. These examples fail to account for both model-specific knowledge distributions and the intrinsic complexity of the tasks, resulting in suboptimal and unstable model performance. To address this, we propose a novel framework inspired by the pedagogical principle of "tailored teaching with balanced difficulty". We reframe prompt selection as a prompt curriculum design problem: constructing a well ordered set of training examples that align with the model's current capabilities. Our approach integrates two complementary signals: (1) model-perceived difficulty, quantified through prediction disagreement in an active learning setup, capturing what the model itself finds challenging; and (2) intrinsic sample complexity, which measures the inherent difficulty of each question-image pair independently of any model. By jointly analyzing these signals, we develop a difficulty-balanced sampling strategy that ensures the selected prompt examples are diverse across both dimensions. Extensive experiments conducted on five challenging benchmarks and multiple popular Multimodal Large Language Models (MLLMs) demonstrate that our method yields substantial and consistent improvements and greatly reduces performance discrepancies caused by random sampling, providing a principled and robust approach for enhancing multimodal reasoning.
- Abstract(参考訳): MCoT(Multimodal Chain-of-Thought)プロンプトの有効性は、ランダムまたは手動で選択した例を用いることによって制限されることが多い。
これらの例は、モデル固有の知識分布と本質的なタスクの複雑さの両方を考慮せず、最適でないモデル性能と不安定なモデル性能をもたらす。
そこで我々は,「バランスの取れた難易度のある教科」という教育原理に着想を得た新しい枠組みを提案する。
私たちは、迅速なカリキュラム設計の問題としてプロンプトセレクションを再設定します。
提案手法は,(1) モデル認識難易度を,(1) モデル自体の難易度を計測する,(2) 問合せの難易度を各モデルと独立に測定する,本質的なサンプル複雑性の2つの相補的信号を統合する。
これらの信号を共同で解析することにより、選択したプロンプト例が両次元にわたって多様であることを確実にする難易度サンプリング戦略を開発する。
5つの挑戦的ベンチマークと複数のマルチモーダル大規模言語モデル (MLLM) で実施された大規模な実験により,本手法は実質的かつ一貫した改善を実現し,ランダムサンプリングによる性能差を大幅に低減し,マルチモーダル推論を強化するための原則的かつ堅牢なアプローチを提供する。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文 参考訳(メタデータ) (2025-06-04T15:31:46Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。