論文の概要: LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03232v1
- Date: Fri, 03 Oct 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.542049
- Title: LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models
- Title(参考訳): LEAML:マルチモーダル大言語モデルのためのアウト・オブ・ディストリビューション・ビジュアルタスクへのラベル効率の良い適応
- Authors: Ci-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang,
- Abstract要約: 医用画像処理タスクのためのラベル効率のよい適応フレームワークであるLEAMLを紹介する。
提案手法は, キャプション蒸留により正規化されたQA生成器を用いて, ラベルのないデータに対して, ドメイン関連疑似問合せペアを生成する。
消化管内視鏡およびスポーツVQAの実験は、LEAMLが最小限の監督下で標準微調整よりも一貫して優れていることを示した。
- 参考スコア(独自算出の注目度): 42.66907237316186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved strong performance on general visual benchmarks but struggle with out-of-distribution (OOD) tasks in specialized domains such as medical imaging, where labeled data is limited and expensive. We introduce LEAML, a label-efficient adaptation framework that leverages both scarce labeled VQA samples and abundant unlabeled images. Our approach generates domain-relevant pseudo question-answer pairs for unlabeled data using a QA generator regularized by caption distillation. Importantly, we selectively update only those neurons most relevant to question-answering, enabling the QA Generator to efficiently acquire domain-specific knowledge during distillation. Experiments on gastrointestinal endoscopy and sports VQA demonstrate that LEAML consistently outperforms standard fine-tuning under minimal supervision, highlighting the effectiveness of our proposed LEAML framework.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚的ベンチマークにおいて高いパフォーマンスを達成しているが、ラベル付きデータが限定的かつ高価である医療画像などの専門分野において、アウト・オブ・ディストリビューション(OOD)タスクに苦慮している。
ラベル付きVQAサンプルとラベルなし画像の両方を活用するラベル効率のよい適応フレームワークであるLEAMLを紹介する。
提案手法は, キャプション蒸留により正規化されたQA生成器を用いて, ラベルのないデータに対して, ドメイン関連疑似問合せペアを生成する。
重要なことは、質問応答に最も関係のあるニューロンのみを選択的に更新し、蒸留中にQAジェネレータがドメイン固有の知識を効率的に取得できるようにすることである。
消化管内視鏡およびスポーツVQAの実験により,LEAMLは最小限の監督下で標準微調整より一貫して優れており,提案したLEAMLフレームワークの有効性が明らかとなった。
関連論文リスト
- OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description [17.70441632887398]
大規模言語モデル(LLM)は、視覚質問応答(VQA)において重要なツールとなっている。
大規模なトレーニングデータセットへの依存はしばしば、知識獲得時に言語バイアスを継承する。
OAD-Promoterは,言語バイアスを緩和し,ドメインシフトの堅牢性を改善することで,LLMベースのVQAを向上するための新しいアプローチである。
論文 参考訳(メタデータ) (2025-11-15T09:37:12Z) - From Cross-Task Examples to In-Task Prompts: A Graph-Based Pseudo-Labeling Framework for In-context Learning [55.90498988440303]
In-context Learning (ICL) は、大きな言語モデルでパラメータを更新せずに新しいタスクを実行できる。
データラベリングのための言語モデルに依存するコスト効率のよい2段階パイプラインを提案する。
5つのタスクにまたがる実験により,ラベリングコストを下げながら,本手法が高い性能を達成することを示す。
論文 参考訳(メタデータ) (2025-10-28T15:37:51Z) - Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA [0.6015898117103068]
MedVQA (Medicical Visual Question Answering) は、医療画像上の自然言語クエリーを、臨床的な意思決定と患者医療を支援する。
本稿では,汎用的な命令調整型大規模言語モデルと検索拡張生成(RAG)フレームワークを用いたMasonNLPシステムを提案する。
19チーム中3位、51チームが平均41.37%の成績を残した。
論文 参考訳(メタデータ) (2025-10-12T07:03:58Z) - Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate [0.19676943624884313]
大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
論文 参考訳(メタデータ) (2025-09-01T13:34:21Z) - MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。
Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T04:54:27Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、様々な視覚言語(VL)タスクで優れている。
高い性能にもかかわらず、LMMの生成出力は視覚言語分類タスクに特化していない。
LMMの潜在空間からマルチモーダル特徴抽出を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Multimodal Prompt Retrieval for Generative Visual Question Answering [9.973591610073006]
本稿では、検索したプロンプトとマルチモーダル機能を統合して、自由テキストで回答を生成するマルチモーダルプロンプト検索(MPR)によって強化された新しい生成モデルを提案する。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
論文 参考訳(メタデータ) (2023-06-30T14:06:13Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。