論文の概要: Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
- arxiv url: http://arxiv.org/abs/2603.12369v1
- Date: Thu, 12 Mar 2026 18:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.727488
- Title: Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
- Title(参考訳): 単一ソース領域一般化のための知識統合型マルチモーダル学習
- Authors: Ayan Banerjee, Kuntal Thakur, Sandeep Gupta,
- Abstract要約: 領域間の画像分類の一般化は、基底画像に基づく糖尿病網膜症(英語版)のグレーディングや、静止状態のfMRI発作の発症ゾーン検出などの重要なタスクにおいて、依然として困難である。
我々は,Low-Rank Adaptation (LoRA)による基礎モデルと人間の知識を組み合わせたマルチモーダル視覚言語モデル(VLM)アプローチであるGenEvalを提案する。
8つのDRと2つのSOZデータセットの中で、GenEvalは69.2%(DR)と81%(SOZ)の精度で優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.6345042809319409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing image classification across domains remains challenging in critical tasks such as fundus image-based diabetic retinopathy (DR) grading and resting-state fMRI seizure onset zone (SOZ) detection. When domains differ in unknown causal factors, achieving cross-domain generalization is difficult, and there is no established methodology to objectively assess such differences without direct metadata or protocol-level information from data collectors, which is typically inaccessible. We first introduce domain conformal bounds (DCB), a theoretical framework to evaluate whether domains diverge in unknown causal factors. Building on this, we propose GenEval, a multimodal Vision Language Models (VLM) approach that combines foundational models (e.g., MedGemma-4B) with human knowledge via Low-Rank Adaptation (LoRA) to bridge causal gaps and enhance single-source domain generalization (SDG). Across eight DR and two SOZ datasets, GenEval achieves superior SDG performance, with average accuracy of 69.2% (DR) and 81% (SOZ), outperforming the strongest baselines by 9.4% and 1.8%, respectively.
- Abstract(参考訳): 領域間の画像分類の一般化は、底部画像に基づく糖尿病網膜症 (DR) グレーディングや静止状態fMRI発作発症領域 (SOZ) 検出などの重要なタスクにおいて依然として困難である。
ドメインが未知の因果関係で異なる場合、クロスドメインの一般化は困難であり、直接メタデータやデータコレクターからのプロトコルレベルの情報なしで、そのような違いを客観的に評価する手法は確立されていない。
まず、未知の因果因子に領域が分岐するかどうかを評価する理論的枠組みとして、ドメイン整列境界(DCB)を導入する。
基礎モデル(例えば、MedGemma-4B)とLow-Rank Adaptation (LoRA)による人間の知識を組み合わせたマルチモーダルビジョン言語モデル(VLM)アプローチであるGenEvalを提案し、因果ギャップを埋め、単一ソース領域一般化(SDG)を強化する。
8つのDRと2つのSOZデータセットを通して、GenEvalは、平均精度69.2%(DR)と81%(SOZ)のSDG性能を達成し、それぞれ9.4%と1.8%という最強のベースラインを上回っている。
関連論文リスト
- Unsupervised Multi-Source Federated Domain Adaptation under Domain Diversity through Group-Wise Discrepancy Minimization [2.522791298432536]
Unsupervised Multi-source Domain adapt (UMDA) は、複数の多様なソースドメインからのラベル付きデータを活用することにより、ラベルなしのターゲットドメインに一般化するモデルを学習することを目的としている。
GALAはスケーラブルで堅牢なUMDAフレームワークで、2つの重要なコンポーネントを導入しています。
GALAは、標準ベンチマークの競合や最先端の結果を一貫して達成し、様々なマルチソース設定で先行メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-09T12:34:37Z) - Single Domain Generalization in Diabetic Retinopathy: A Neuro-Symbolic Learning Approach [0.5581472054346949]
KG-DGは糖尿病網膜症(DR)分類のための神経象徴的枠組みである。
視覚変換器と専門家誘導のシンボル推論を統合し、目に見えない領域をまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2025-09-03T01:07:49Z) - Generative Classifier for Domain Generalization [84.92088101715116]
ドメインの一般化は、分散シフトに対するコンピュータビジョンモデルの一般化性を目的としている。
生成駆動型ドメイン一般化(GCDG)を提案する。
GCDGは3つの重要なモジュールから構成される: 異種性学習(HLC)、純粋相関(SCB)、横成分バランス(DCB)。
論文 参考訳(メタデータ) (2025-04-03T04:38:33Z) - FedSemiDG: Domain Generalized Federated Semi-supervised Medical Image Segmentation [19.87797382888023]
医用画像の多様性とラベル付きデータの欠如により、医用画像のセグメンテーションは困難である。
本稿では,FedSemiDGの課題に対処するため,FGASL(Federated Generalization-Aware Semi Supervised Learning)という新しいフレームワークを提案する。
提案手法は最先端のFSSLおよびドメインの一般化手法を著しく上回り,未確認領域に対する堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-01-13T14:54:49Z) - DGM-DR: Domain Generalization with Mutual Information Regularized
Diabetic Retinopathy Classification [40.35834579068518]
トレーニングとテストデータのドメインシフトは、一般的なディープラーニングモデルをトレーニングする上で大きな課題となる。
医用画像領域に事前訓練されたモデルとしてモデル目的関数を再確立するDG法を提案する。
提案手法は,従来の最先端技術よりも平均精度5.25%,標準偏差が低い。
論文 参考訳(メタデータ) (2023-09-18T11:17:13Z) - On Certifying and Improving Generalization to Unseen Domains [87.00662852876177]
ドメインの一般化は、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としています。
いくつかのベンチマークデータセットを使用して、DGアルゴリズムを包括的に評価することは困難である。
我々は,任意のDG手法の最悪の性能を効率的に証明できる普遍的な認証フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T16:29:43Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Unsupervised Domain Adaptation for Dysarthric Speech Detection via
Domain Adversarial Training and Mutual Information Minimization [52.82138296332476]
本稿では,非教師付き領域適応問題として,クロスドメイン・ディザスリック音声検出(DSD)を定式化するための最初の試みを行う。
DPC, DAT, 相互情報最小化(MIM)を含むマルチタスク学習戦略を提案する。
実験の結果, 発話レベルの重み付き平均リコールと話者レベルの精度では, それぞれ22.2%, 20.0%の絶対的な増加が得られた。
論文 参考訳(メタデータ) (2021-06-18T13:34:36Z) - Dual Distribution Alignment Network for Generalizable Person
Re-Identification [174.36157174951603]
ドメイン一般化(DG)は、人物再識別(Re-ID)を扱うための有望なソリューションとして機能する
本稿では、複数のソースドメインの分布を選択的に整列させることにより、この問題に対処するDual Distribution Alignment Network(DDAN)を提案する。
大規模なDomain Generalization Re-ID(DG Re-ID)ベンチマークでDDANを評価した。
論文 参考訳(メタデータ) (2020-07-27T00:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。