論文の概要: LLM is Not All You Need: A Systematic Evaluation of ML vs. Foundation Models for text and image based Medical Classification
- arxiv url: http://arxiv.org/abs/2601.16549v1
- Date: Fri, 23 Jan 2026 08:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.608019
- Title: LLM is Not All You Need: A Systematic Evaluation of ML vs. Foundation Models for text and image based Medical Classification
- Title(参考訳): LLMは必要なすべてではない:テキストと画像に基づく医療分類のためのMLと基礎モデルの体系的評価
- Authors: Meet Raval, Tejul Pandit, Dhvani Upadhyay,
- Abstract要約: Multimodal Vision-Language Models (VLM) と Large Language Models (LLM) は、医療分類の新しい可能性を開く。
この研究は、テキストと画像のモダリティをカバーする4つの公開データセットを使用して、厳密で統一されたベンチマークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combination of multimodal Vision-Language Models (VLMs) and Large Language Models (LLMs) opens up new possibilities for medical classification. This work offers a rigorous, unified benchmark by using four publicly available datasets covering text and image modalities (binary and multiclass complexity) that contrasts traditional Machine Learning (ML) with contemporary transformer-based techniques. We evaluated three model classes for each task: Classical ML (LR, LightGBM, ResNet-50), Prompt-Based LLMs/VLMs (Gemini 2.5), and Fine-Tuned PEFT Models (LoRA-adapted Gemma3 variants). All experiments used consistent data splits and aligned metrics. According to our results, traditional machine learning (ML) models set a high standard by consistently achieving the best overall performance across most medical categorization tasks. This was especially true for structured text-based datasets, where the classical models performed exceptionally well. In stark contrast, the LoRA-tuned Gemma variants consistently showed the worst performance across all text and image experiments, failing to generalize from the minimal fine-tuning provided. However, the zero-shot LLM/VLM pipelines (Gemini 2.5) had mixed results; they performed poorly on text-based tasks, but demonstrated competitive performance on the multiclass image task, matching the classical ResNet-50 baseline. These results demonstrate that in many medical categorization scenarios, established machine learning models continue to be the most reliable option. The experiment suggests that foundation models are not universally superior and that the effectiveness of Parameter-Efficient Fine-Tuning (PEFT) is highly dependent on the adaptation strategy, as minimal fine-tuning proved detrimental in this study.
- Abstract(参考訳): VLM(Multimodal Vision-Language Models)とLLM(Large Language Models)の組み合わせは、医療分類の新しい可能性を開く。
この研究は、テキストと画像のモダリティ(バイナリとマルチクラスの複雑さ)をカバーする4つの公開データセットを使用して、厳密で統一されたベンチマークを提供する。
古典型ML (LR, LightGBM, ResNet-50), Prompt-based LLMs/VLMs (Gemini 2.5), Fine-Tuned PEFT Models (LoRA適応Gemma3) の3つのモデルクラスを評価した。
すべての実験では、一貫性のあるデータ分割とアライメントされたメトリクスを使用しました。
私たちの結果によると、従来の機械学習(ML)モデルは、ほとんどの医療分類タスクで最高の全体的なパフォーマンスを一貫して達成することで、高い標準を設定しました。
これは構造化されたテキストベースのデータセットに特に当てはまり、古典的なモデルは非常によく機能した。
対照的に、LoRAで調整されたGemmaはすべてのテキストや画像実験で最低性能を示しており、最小限の微調整で一般化できなかった。
しかし、ゼロショットLLM/VLMパイプライン(Gemini 2.5)はテキストベースのタスクではうまく動作しなかったが、従来のResNet-50ベースラインと競合する性能を示した。
これらの結果は、多くの医療分類シナリオにおいて、確立された機械学習モデルが最も信頼性の高い選択肢であることを示している。
この実験は, 基礎モデルが普遍的に優れているわけではなく, パラメータ効率の良いファインチューニング(PEFT)の有効性が適応戦略に大きく依存していることを示唆している。
関連論文リスト
- Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.764671395172401]
本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文 参考訳(メタデータ) (2025-09-23T09:23:31Z) - Shadow-FT: Tuning Instruct Model via Training on Paired Base Model [67.20706292627106]
大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するベースモデルを活用してインストラクタモデルをチューニングするための新しいシャドウ-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-19T05:16:21Z) - Advancing Single and Multi-task Text Classification through Large Language Model Fine-tuning [29.782832197148487]
大規模言語モデル(LLM)はテキスト分類タスクに広く使われている。
本研究は様々なモデルと手法を用いており、サイズやアーキテクチャは様々であり、微調整と事前訓練の両方のアプローチを含んでいる。
まず,20のニュースグループ(20NG)とデータセット上でのLLMの性能を評価し,エンコーダのみのRoBERTaモデルと比較した。
目的検出やスロットフィリングを含む複数の分類タスクを,両方のデータセットからのデータを用いて単一のモデルに組み合わせることで,両モデルのマルチタスク機能について検討した。
論文 参考訳(メタデータ) (2024-12-11T18:06:44Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。