論文の概要: Learning Domain Knowledge in Multimodal Large Language Models through Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.16419v1
- Date: Fri, 23 Jan 2026 03:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.523318
- Title: Learning Domain Knowledge in Multimodal Large Language Models through Reinforcement Fine-Tuning
- Title(参考訳): 強化細調整による多モーダル大言語モデルにおけるドメイン知識の学習
- Authors: Qinglong Cao, Yuntian Chen, Chao Ma, Xiaokang Yang,
- Abstract要約: 入力レベルのドメイン知識注入は、科学的なマルチモーダルタスクにおいてほとんど、あるいは全く改善しないことを示す。
本稿では,ドメイン知識を直接学習対象に組み込む強化微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.73465144699025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable capabilities in multimodal perception and understanding tasks. However, their effectiveness in specialized domains, such as remote sensing and medical imaging, remains limited. A natural approach to domain adaptation is to inject domain knowledge through textual instructions, prompts, or auxiliary captions. Surprisingly, we find that such input-level domain knowledge injection yields little to no improvement on scientific multimodal tasks, even when the domain knowledge is explicitly provided. This observation suggests that current MLLMs fail to internalize domain-specific priors through language alone, and that domain knowledge must be integrated at the optimization level. Motivated by this insight, we propose a reinforcement fine-tuning framework that incorporates domain knowledge directly into the learning objective. Instead of treating domain knowledge as descriptive information, we encode it as domain-informed constraints and reward signals, shaping the model's behavior in the output space. Extensive experiments across multiple datasets in remote sensing and medical domains consistently demonstrate good performance gains, achieving state-of-the-art results on multimodal domain tasks. Our results highlight the necessity of optimization-level domain knowledge integration and reveal a fundamental limitation of textual domain conditioning in current MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は,多モーダル認識および理解タスクにおいて顕著な能力を示した。
しかし、リモートセンシングや医用画像などの専門分野における有効性は依然として限られている。
ドメイン適応に対する自然なアプローチは、テキストの指示、プロンプト、補助的なキャプションを通じてドメイン知識を注入することである。
驚くべきことに、そのような入力レベルのドメイン知識注入は、たとえドメイン知識が明示的に提供されたとしても、科学的なマルチモーダルなタスクをほとんど、あるいは全く改善しない。
この観察は、現在のMLLMが言語単独でドメイン固有の事前を内部化するのに失敗し、ドメイン知識を最適化レベルで統合する必要があることを示唆している。
そこで本研究では,ドメイン知識を直接学習対象に組み込む強化微調整フレームワークを提案する。
ドメイン知識を記述的な情報として扱う代わりに、ドメインインフォームド制約と報酬信号としてエンコードし、出力空間におけるモデルの振る舞いを形作る。
リモートセンシングおよび医療領域における複数のデータセットにわたる大規模な実験は、常に優れたパフォーマンス向上を示し、マルチモーダルドメインタスクにおける最先端の結果を達成する。
本結果は,最適化レベルのドメイン知識統合の必要性を強調し,現在のMLLMにおけるテキスト・ドメイン・コンディショニングの基本的な制限を明らかにした。
関連論文リスト
- More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs [40.54076184225558]
大言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。
本稿では,一般能力統合(GCI)と呼ばれる,CFを越えたドメイン固有LLMの実適用に向けた課題について述べる。
GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。
論文 参考訳(メタデータ) (2024-05-28T05:00:12Z) - Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research [44.87702042041601]
大規模ビジョンランゲージモデル(VLM)のための一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
論文 参考訳(メタデータ) (2024-05-14T14:51:12Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Open Domain Generalization with Domain-Augmented Meta-Learning [83.59952915761141]
オープンドメイン一般化(OpenDG)の新しい実践的問題について研究する。
本稿では,オープンドメイン一般化表現を学ぶためのメタ学習フレームワークを提案する。
種々のマルチドメインデータセットの実験結果から、提案したドメイン拡張メタラーニング(DAML)が、未確認ドメイン認識の先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-08T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。