Fugu-MT 論文翻訳(概要): Reasoning-Driven Multimodal LLM for Domain Generalization

論文の概要: Reasoning-Driven Multimodal LLM for Domain Generalization

arxiv url: http://arxiv.org/abs/2602.23777v1
Date: Fri, 27 Feb 2026 08:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.310963
Title: Reasoning-Driven Multimodal LLM for Domain Generalization
Title（参考訳）: ドメイン一般化のための推論駆動型マルチモーダルLCM
Authors: Zhipeng Xu, Zilong Wang, Xinyang Jiang, Dongsheng Li, De Cheng, Nannan Wang,
Abstract要約: DomainBed-Reasoning データセットを用いた領域一般化における推論の役割について検討する。 MTCT(Multi-Task Cross-Training)とSARR(Self-Aligned Reasoning Regularization)の2つのコンポーネントからなるフレームワークであるRD-MLDGを提案する。標準のDomainBedデータセットの実験は、RD-MLDGが補完的な最先端のパフォーマンスを達成することを示した。
参考スコア（独自算出の注目度）: 72.00754603114187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the domain generalization (DG) problem in deep learning. While most DG methods focus on enforcing visual feature invariance, we leverage the reasoning capability of multimodal large language models (MLLMs) and explore the potential of constructing reasoning chains that derives image categories to achieve more robust predictions under domain shift. To this end, we systematically study the role of reasoning in DG using DomainBed-Reasoning, a newly constructed extension of DomainBed dataset, in which each sample is paired with class-relevant reasoning chains. Our analysis reveals two key challenges: (i) fine-tuning MLLMs with reasoning chains for classification is more challenging than direct label supervision, since the model must optimize complex reasoning sequences before label prediction; and (ii) mismatches in reasoning patterns between supervision signals and fine-tuned MLLMs lead to a trade-off between semantic richness (informative but harder to optimize) and optimization efficiency (easier to optimize but less informative). To address these issues, we propose RD-MLDG (Reasoning-Driven Multimodal LLM for Domain Generalization), a framework with two components: (i) MTCT (Multi-Task Cross-Training), which introduces an additional direct classification pathway to guide reasoning supervision; and (ii) SARR (Self-Aligned Reasoning Regularization), which preserves the semantic richness of reasoning chains while mitigating reasoning-pattern mismatches via iterative self-labeling. Experiments on standard DomainBed datasets (PACS, VLCS, OfficeHome, TerraInc) demonstrate that RD-MLDG achieves state-of-the-art performances, highlighting reasoning as a promising complementary signal for robust out-of-domain generalization.
Abstract（参考訳）: 本稿では,ディープラーニングにおけるドメイン一般化(DG)問題に対処する。多くのDG手法は、視覚的特徴不変性の強化に重点を置いているが、我々はマルチモーダル大言語モデル(MLLM)の推論能力を活用し、領域シフトの下でより堅牢な予測を達成するために画像カテゴリを導出する推論チェーンを構築する可能性を探る。そこで我々は,新たに構築されたDomainBedデータセットの拡張であるDomainBed-Reasoningを用いて,DGにおける推論の役割を体系的に研究する。私たちの分析では2つの重要な課題を明らかにしています。 (i)分類のための推論チェーンを持つ微調整MLLMは、ラベル予測の前に複雑な推論シーケンスを最適化しなければならないため、直接ラベル管理よりも困難である。 (II)監視信号と微調整MLLMのパターンの推論におけるミスマッチは、意味豊かさ(表現的だが最適化が難しい)と最適化効率(最適化が容易だが、情報的でない)のトレードオフにつながる。これらの問題に対処するため,RD-MLDG (Reasoning-Driven Multimodal LLM for Domain Generalization) を提案する。 i)MTCT(Multi-Task Cross-Training) (II) SARR(Self-Aligned Reasoning Regularization)は、反復的な自己ラベルによる推論パターンのミスマッチを緩和しながら、推論チェーンのセマンティックリッチ性を維持する。標準的なDomainBedデータセット(PACS、VLCS、OfficeHome、TerraInc)の実験では、RD-MLDGが最先端のパフォーマンスを実現し、堅牢なドメイン外一般化のための有望な補完信号としての推論を強調している。

関連論文リスト

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。 MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文参考訳（メタデータ） (2026-02-04T12:12:49Z)
Connecting Domains and Contrasting Samples: A Ladder for Domain Generalization [52.52838658375592]
本稿では,ドメイン間の概念的接続性を高めるために,ドメイン接続型コントラスト学習(DCCL)を提案する。データ側では、クラス内の接続性を改善するために、よりアグレッシブなデータ拡張とクロスドメインの陽性サンプルが導入されている。その結果、DCCLはドメインの監督なしに最先端のベースラインを上回ることが確認された。
論文参考訳（メタデータ） (2025-10-19T04:13:29Z)
AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文参考訳（メタデータ） (2025-08-06T08:00:27Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。 Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。 DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文参考訳（メタデータ） (2024-07-10T11:11:36Z)
Rethinking Multi-domain Generalization with A General Learning Objective [17.155829981870045]
マルチドメイン一般化(mDG)は、トレーニングとテストディストリビューションの相違を最小限にすることを目的としている。既存のmDG文献には、一般的な学習目標パラダイムが欠けている。制約緩和に$Y$-mappingを活用することを提案する。
論文参考訳（メタデータ） (2024-02-29T05:00:30Z)
Consistency Regularization for Domain Generalization with Logit Attribution Matching [14.98337914353095]
ドメイン一般化(Domain Generalization, DG)とは、ドメインシフトの下でよく一般化されるトレーニングモデルである。トレーニングドメインには、同じ意味情報を共有するサンプルのペアの集合が与えられています。整合正則化がDGに導出可能であることを示す理論を提案し、ロジットマッチングと呼ばれる新しいCR法を提案する。
論文参考訳（メタデータ） (2023-05-13T10:21:53Z)
Diversity Boosted Learning for Domain Generalization with Large Number of Domains [4.711430413139393]
多様性が向上したtwOレベルのsaMplingフレームワークは、ドメイン側とオブジェクト側の両方の急激な相関に対して堅牢なモデルをトレーニングするのに役立ちます。 DOMIは, 回転MNIST, 回転Fashion MNIST, およびiwildcamデータセットのスプリアス相関に対するロバストモデルのトレーニングを支援する。
論文参考訳（メタデータ） (2022-07-28T02:58:17Z)
Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。 4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文参考訳（メタデータ） (2022-03-24T11:54:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。