Fugu-MT 論文翻訳(概要): Retrieval-augmented in-context learning for multimodal large language models in disease classification

論文の概要: Retrieval-augmented in-context learning for multimodal large language models in disease classification

arxiv url: http://arxiv.org/abs/2505.02087v1
Date: Sun, 04 May 2025 12:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.420632
Title: Retrieval-augmented in-context learning for multimodal large language models in disease classification
Title（参考訳）: 病的分類における多モーダル大言語モデルの検索学習
Authors: Zaifu Zhan, Shuang Zhou, Xiaoshan Zhou, Yongkang Xiao, Jun Wang, Jiawen Deng, He Zhu, Yu Hou, Rui Zhang,
Abstract要約: RAICLは、検索強化世代(RAG)とコンテキスト内学習(ICL)を統合し、同様の病気パターンを持つデモを適応的に選択する。このフレームワークを実世界の2つのマルチモーダルデータセット上で評価した。
参考スコア（独自算出の注目度）: 18.48849976529677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Objectives: We aim to dynamically retrieve informative demonstrations, enhancing in-context learning in multimodal large language models (MLLMs) for disease classification. Methods: We propose a Retrieval-Augmented In-Context Learning (RAICL) framework, which integrates retrieval-augmented generation (RAG) and in-context learning (ICL) to adaptively select demonstrations with similar disease patterns, enabling more effective ICL in MLLMs. Specifically, RAICL examines embeddings from diverse encoders, including ResNet, BERT, BioBERT, and ClinicalBERT, to retrieve appropriate demonstrations, and constructs conversational prompts optimized for ICL. We evaluated the framework on two real-world multi-modal datasets (TCGA and IU Chest X-ray), assessing its performance across multiple MLLMs (Qwen, Llava, Gemma), embedding strategies, similarity metrics, and varying numbers of demonstrations. Results: RAICL consistently improved classification performance. Accuracy increased from 0.7854 to 0.8368 on TCGA and from 0.7924 to 0.8658 on IU Chest X-ray. Multi-modal inputs outperformed single-modal ones, with text-only inputs being stronger than images alone. The richness of information embedded in each modality will determine which embedding model can be used to get better results. Few-shot experiments showed that increasing the number of retrieved examples further enhanced performance. Across different similarity metrics, Euclidean distance achieved the highest accuracy while cosine similarity yielded better macro-F1 scores. RAICL demonstrated consistent improvements across various MLLMs, confirming its robustness and versatility. Conclusions: RAICL provides an efficient and scalable approach to enhance in-context learning in MLLMs for multimodal disease classification.
Abstract（参考訳）: 目的: 疾患分類のための多モーダル大規模言語モデル(MLLM)において, 動的に情報提示を検索し, 文脈内学習を強化することを目的とする。方法: 検索拡張世代 (RAG) とコンテキスト内学習 (ICL) を統合した検索拡張型インコンテキスト学習 (RAICL) フレームワークを提案する。具体的には、ResNet, BERT, BioBERT, ClinicalBERTなどの様々なエンコーダからの埋め込みを調べ、適切なデモを検索し、ICLに最適化された会話プロンプトを構築する。複数のMLLM(Qwen, Llava, Gemma),埋め込み戦略, 類似度指標, さまざまなデモ数を対象に, 実世界のマルチモーダルデータセット(TCGA, IU Chest X-ray)のフレームワークの評価を行った。結果: RAICLは一貫して分類性能を改善した。 TCGAでは0.7854から0.8368、IU胸部X線では0.7924から0.8658へと精度が向上した。マルチモーダル入力はシングルモーダル入力よりも優れており、テキストのみの入力は画像のみよりも強い。各モダリティに埋め込まれた情報の豊かさは、どの埋め込みモデルを使ってより良い結果を得ることができるかを決定する。得られたサンプルの数を増やすことで、パフォーマンスがさらに向上した。類似度は異なるが、ユークリッド距離は高い精度を達成し、コサイン類似度はマクロF1スコアが向上した。 RAICLは様々なMLLMで一貫した改善を示し、その堅牢性と汎用性を確認した。結論: RAICLはマルチモーダル病分類のためのMLLMにおける文脈内学習を強化するための効率的でスケーラブルなアプローチを提供する。

関連論文リスト

Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。 FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。 FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文参考訳（メタデータ） (2025-06-06T12:29:03Z)
QUPID: Quantified Understanding for Enhanced Performance, Insights, and Decisions in Korean Search Engines [4.94507535566914]
異なるアーキテクチャで2つの異なる小言語モデル(SLM)を組み合わせることで、関連性評価において大きな言語モデル(LLM)より優れていることを示す。我々のアプローチ - QUPID -- は、生成SLMと埋め込みSLMを統合し、高い関連性判定精度を実現する。
論文参考訳（メタデータ） (2025-05-12T08:35:09Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。 Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文参考訳（メタデータ） (2025-01-07T14:57:08Z)
Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies [0.9217021281095907]
本研究では,視覚言語モデル(VLM)のファクトチェックにおけるマルチモーダルコンテンツ表現および活用の有効性を評価する。マルチモーダリティは性能を向上させることができるが,テキストと画像エンコーダの分離埋め込みはVLM埋め込みよりも優れた結果を示した。
論文参考訳（メタデータ） (2024-12-06T16:13:19Z)
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。 MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文参考訳（メタデータ） (2024-07-22T15:16:47Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
Extension of Transformational Machine Learning: Classification Problems [0.0]
本研究では、薬物発見における変換機械学習(TML)の適用と性能について検討する。メタ学習アルゴリズムであるTMLは、さまざまなドメインにまたがる共通属性の活用に優れています。薬物発見プロセスは複雑で時間を要するが、予測精度の増大から大きな恩恵を受けることができる。
論文参考訳（メタデータ） (2023-08-07T07:34:18Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。