論文の概要: RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI
- arxiv url: http://arxiv.org/abs/2605.00421v2
- Date: Mon, 04 May 2026 16:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:07.097451
- Title: RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI
- Title(参考訳): RadLite: CPUデプロイ可能なラジオロジーAIのための小型言語モデルのマルチタスクLORA微調整
- Authors: Pankaj Gupta, Kartik Bose,
- Abstract要約: 大型言語モデル(LLM)は放射線学において有望であるが、その展開は資源制約された臨床環境での使用を妨げる計算要求によって制限されている。
我々は,340億個のパラメータからなる小型言語モデル (SLM) が,LoRAファインチューニングによるマルチタスク・ラジオロジーの性能向上を実現し,コンシューマグレードのCPUに展開できるかどうかを検討する。
我々の研究は、小型で効率的に調整されたモデルが、GPUを必要としないコンシューマハードウェアに完全にデプロイ可能な、実用的なマルチタスク・ラジオロジーAIアシスタントとして機能することを実証している。
- 参考スコア(独自算出の注目度): 1.5161700234179216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) show promise in radiology but their deployment is limited by computational requirements that preclude use in resource-constrained clinical environments. We investigate whether small language models (SLMs) of 3-4 billion parameters can achieve strong multi-task radiology performance through LoRA fine-tuning, enabling deployment on consumer-grade CPUs. We train Qwen2.5-3B-Instruct and Qwen3-4B on 162K samples spanning 9 radiology tasks - RADS classification across 10 systems, impression generation, temporal comparison, radiology NLI, NER, abnormality detection, N/M staging, and radiology Q&A - compiled from 12 public datasets. Both models are evaluated on up to 500 held-out test samples per task with standardized metrics. Our key findings are: (1) LoRA fine-tuning dramatically improves performance over zero-shot baselines (RADS accuracy +53%, NLI +60%, N-staging +89%); (2) the two models exhibit complementary strengths - Qwen2.5 excels at structured generation tasks while Qwen3 dominates extractive tasks; (3) a task-outed oracle ensemble combining both models achieves the best performance across all tasks; (4) few-shot prompting with fine-tuned models hurts performance, demonstrating that LoRA adaptation is more effective than in-context learning for specialized domains; and (5) models can be quantized to GGUF format (~1.8-2.4GB) for CPU deployment at 4-8 tokens/second on consumer hardware. Our work demonstrates that small, efficiently fine-tuned models - which we collectively call RadLite - can serve as practical multi-task radiology AI assistants deployable entirely on consumer hardware without GPU requirements. Code and models are available at https://github.com/RadioX-Labs/RadLite
- Abstract(参考訳): 大型言語モデル(LLM)は放射線学において有望であるが、その展開は資源制約された臨床環境での使用を妨げる計算要求によって制限されている。
我々は,340億個のパラメータからなる小型言語モデル (SLM) が,LoRAファインチューニングによるマルチタスク・ラジオロジーの性能向上を実現し,コンシューマグレードのCPUに展開できるかどうかを検討する。
Qwen2.5-3B-InstructとQwen3-4Bを、9つの放射線学タスクにまたがる162Kサンプル(RADS分類、印象生成、時間比較、NLI、NER、異常検出、N/Mステージング、ラジオロジーQ&A)で訓練する。
両方のモデルは、標準化されたメトリクスを使用して、タスク毎に最大500のホールドアウトテストサンプルで評価される。
1)LoRAファインチューニングはゼロショットベースライン(RADS精度+53%, NLI+60%, N-staging+89%)よりもパフォーマンスを劇的に改善する; 2) 2つのモデルには補完的な長所がある – Qwen2.5は構造化された生成タスクで、Qwen3は抽出タスクで、Qwen3は抽出タスクで、 (3) 両方のモデルを組み合わせたタスクアウトのオラクルアンサンブルは、すべてのタスクで最高のパフォーマンスを達成する。
私たちの研究は、RadLiteと呼ぶ、小さくて効率的に調整されたモデルが、GPUの要求なしに、コンシューマハードウェアに完全にデプロイ可能な、実用的なマルチタスクラジオロジーAIアシスタントとして機能することを実証しています。
コードとモデルはhttps://github.com/RadioX-Labs/RadLiteで入手できる。
関連論文リスト
- RADSeg: Unleashing Parameter and Compute Efficient Zero-Shot Open-Vocabulary Segmentation Using Agglomerative Models [6.977949425464]
我々は、見過ごされた集合的視覚基盤モデルRADIOを活用し、mIoU、レイテンシ、パラメータ効率の3つの主要な軸に沿ったゼロショットOVSSを同時に改善する。
RADSegは,3.95倍高速かつ2.5倍少ないパラメータを用いて,ベースViTクラスの6~30%のmIoU改善を実現した。
論文 参考訳(メタデータ) (2025-11-24T21:15:01Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - CURA: Size Isnt All You Need - A Compact Universal Architecture for On-Device Intelligence [0.6244816393907943]
本稿では,多様な機械学習タスクに対して,コンパクトで軽量なソリューションを提供するアーキテクチャCURAを提案する。
コンパクト化のためには、ベースラインモデルに比べて最大2500倍のパラメータで等価な精度を実現した。
一般化のために、4つのNLPベンチマークと1つのコンピュータビジョンデータセットで一貫した性能を示した。
論文 参考訳(メタデータ) (2025-09-29T11:06:37Z) - Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。
我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。
我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文 参考訳(メタデータ) (2025-05-30T20:12:51Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。
この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。
統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文 参考訳(メタデータ) (2025-03-18T07:44:49Z) - AIvaluateXR: An Evaluation Framework for on-Device AI in XR with Benchmarking Results [55.33807002543901]
我々は,XRデバイス上で動作する大規模言語モデル(LLM)をベンチマークするための総合評価フレームワークであるAIvaluateXRを提案する。
我々はMagic Leap 2、Meta Quest 3、Vivo X100s Pro、Apple Vision Proという4つのXRプラットフォームに17個の選択されたLSMをデプロイし、広範囲な評価を行います。
本稿では,3次元最適性理論に基づく統一評価手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T20:55:48Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。