論文の概要: Retrieval-augmented in-context learning for multimodal large language models in disease classification
- arxiv url: http://arxiv.org/abs/2505.02087v1
- Date: Sun, 04 May 2025 12:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.420632
- Title: Retrieval-augmented in-context learning for multimodal large language models in disease classification
- Title(参考訳): 病的分類における多モーダル大言語モデルの検索学習
- Authors: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang,
- Abstract要約: RAICLは、検索強化世代(RAG)とコンテキスト内学習(ICL)を統合し、同様の病気パターンを持つデモを適応的に選択する。
このフレームワークを実世界の2つのマルチモーダルデータセット上で評価した。
- 参考スコア(独自算出の注目度): 18.48849976529677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objectives: We aim to dynamically retrieve informative demonstrations, enhancing in-context learning in multimodal large language models (MLLMs) for disease classification. Methods: We propose a Retrieval-Augmented In-Context Learning (RAICL) framework, which integrates retrieval-augmented generation (RAG) and in-context learning (ICL) to adaptively select demonstrations with similar disease patterns, enabling more effective ICL in MLLMs. Specifically, RAICL examines embeddings from diverse encoders, including ResNet, BERT, BioBERT, and ClinicalBERT, to retrieve appropriate demonstrations, and constructs conversational prompts optimized for ICL. We evaluated the framework on two real-world multi-modal datasets (TCGA and IU Chest X-ray), assessing its performance across multiple MLLMs (Qwen, Llava, Gemma), embedding strategies, similarity metrics, and varying numbers of demonstrations. Results: RAICL consistently improved classification performance. Accuracy increased from 0.7854 to 0.8368 on TCGA and from 0.7924 to 0.8658 on IU Chest X-ray. Multi-modal inputs outperformed single-modal ones, with text-only inputs being stronger than images alone. The richness of information embedded in each modality will determine which embedding model can be used to get better results. Few-shot experiments showed that increasing the number of retrieved examples further enhanced performance. Across different similarity metrics, Euclidean distance achieved the highest accuracy while cosine similarity yielded better macro-F1 scores. RAICL demonstrated consistent improvements across various MLLMs, confirming its robustness and versatility. Conclusions: RAICL provides an efficient and scalable approach to enhance in-context learning in MLLMs for multimodal disease classification.
- Abstract(参考訳): 目的: 疾患分類のための多モーダル大規模言語モデル(MLLM)において, 動的に情報提示を検索し, 文脈内学習を強化することを目的とする。
方法: 検索拡張世代 (RAG) とコンテキスト内学習 (ICL) を統合した検索拡張型インコンテキスト学習 (RAICL) フレームワークを提案する。
具体的には、ResNet, BERT, BioBERT, ClinicalBERTなどの様々なエンコーダからの埋め込みを調べ、適切なデモを検索し、ICLに最適化された会話プロンプトを構築する。
複数のMLLM(Qwen, Llava, Gemma),埋め込み戦略, 類似度指標, さまざまなデモ数を対象に, 実世界のマルチモーダルデータセット(TCGA, IU Chest X-ray)のフレームワークの評価を行った。
結果: RAICLは一貫して分類性能を改善した。
TCGAでは0.7854から0.8368、IU胸部X線では0.7924から0.8658へと精度が向上した。
マルチモーダル入力はシングルモーダル入力よりも優れており、テキストのみの入力は画像のみよりも強い。
各モダリティに埋め込まれた情報の豊かさは、どの埋め込みモデルを使ってより良い結果を得ることができるかを決定する。
得られたサンプルの数を増やすことで、パフォーマンスがさらに向上した。
類似度は異なるが、ユークリッド距離は高い精度を達成し、コサイン類似度はマクロF1スコアが向上した。
RAICLは様々なMLLMで一貫した改善を示し、その堅牢性と汎用性を確認した。
結論: RAICLはマルチモーダル病分類のためのMLLMにおける文脈内学習を強化するための効率的でスケーラブルなアプローチを提供する。
関連論文リスト
- Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。