論文の概要: LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03232v1
- Date: Fri, 03 Oct 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.542049
- Title: LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
- Title(参考訳): LEAML:マルチモーダル大言語モデルのためのアウト・オブ・ディストリビューション・ビジュアルタスクへのラベル効率の良い適応
- Authors: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang,
- Abstract要約: 医用画像処理タスクのためのラベル効率のよい適応フレームワークであるLEAMLを紹介する。
提案手法は, キャプション蒸留により正規化されたQA生成器を用いて, ラベルのないデータに対して, ドメイン関連疑似問合せペアを生成する。
消化管内視鏡およびスポーツVQAの実験は、LEAMLが最小限の監督下で標準微調整よりも一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 42.66907237316186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚的ベンチマークにおいて高いパフォーマンスを達成しているが、ラベル付きデータが限定的かつ高価である医療画像などの専門分野において、アウト・オブ・ディストリビューション(OOD)タスクに苦慮している。
ラベル付きVQAサンプルとラベルなし画像の両方を活用するラベル効率のよい適応フレームワークであるLEAMLを紹介する。
提案手法は, キャプション蒸留により正規化されたQA生成器を用いて, ラベルのないデータに対して, ドメイン関連疑似問合せペアを生成する。
重要なことは、質問応答に最も関係のあるニューロンのみを選択的に更新し、蒸留中にQAジェネレータがドメイン固有の知識を効率的に取得できるようにすることである。
消化管内視鏡およびスポーツVQAの実験により,LEAMLは最小限の監督下で標準微調整より一貫して優れており,提案したLEAMLフレームワークの有効性が明らかとなった。
関連論文リスト
- Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate [0.19676943624884313]
大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
論文 参考訳(メタデータ) (2025-09-01T13:34:21Z) - MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。
Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T04:54:27Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、様々な視覚言語(VL)タスクで優れている。
高い性能にもかかわらず、LMMの生成出力は視覚言語分類タスクに特化していない。
LMMの潜在空間からマルチモーダル特徴抽出を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - Multimodal Prompt Retrieval for Generative Visual Question Answering [9.973591610073006]
本稿では、検索したプロンプトとマルチモーダル機能を統合して、自由テキストで回答を生成するマルチモーダルプロンプト検索(MPR)によって強化された新しい生成モデルを提案する。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
論文 参考訳(メタデータ) (2023-06-30T14:06:13Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。