論文の概要: Enabling On-Device Medical AI Assistants via Input-Driven Saliency Adaptation
- arxiv url: http://arxiv.org/abs/2506.11105v2
- Date: Mon, 16 Jun 2025 02:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.491957
- Title: Enabling On-Device Medical AI Assistants via Input-Driven Saliency Adaptation
- Title(参考訳): 入力駆動型適応によるオンデバイス医療用AIアシスタントの実現
- Authors: Uttej Kallakurik, Edward Humes, Rithvik Jonna, Xiaomin Lin, Tinoosh Mohsenin,
- Abstract要約: 大規模言語モデル(LLM)は、医療シナリオに重大な影響を与えるが、エッジデバイスなどのリソース制約のあるリアルタイム環境へのデプロイには、違法に大きいままである。
汎用圧縮フレームワークによって最適化された新しい医療アシスタントシステムを導入し,LLMを専門分野への展開に適したものにする。
ドメイン固有データに対するニューロンの塩分濃度を計測することにより、無関係なニューロンを積極的にプーンし、性能を保ちながらモデルサイズを小さくすることができる。
- 参考スコア(独自算出の注目度): 1.2338220374261344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significant impact on the healthcare scenarios but remain prohibitively large for deployment in real-time, resource-constrained environments such as edge devices. In this work, we introduce a novel medical assistant system, optimized through our general-purpose compression framework, which tailors Large Language Models (LLMs) for deployment in specialized domains. By measuring neuron saliency on domain-specific data, our method can aggressively prune irrelevant neurons, reducing model size while preserving performance. Following pruning, we apply post-training quantization to further reduce the memory footprint, and evaluate the compressed model across medical benchmarks including MedMCQA, MedQA, and PubMedQA. We also deploy the 50\% compressed Gemma and the 67\% compressed LLaMA3 models on Jetson Orin Nano (18.7W peak) and Raspberry Pi 5 (6.3W peak), achieving real-time, energy-efficient inference under hardware constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療シナリオに重大な影響を与えるが、エッジデバイスなどのリソース制約のあるリアルタイム環境へのデプロイには、違法に大きいままである。
本研究では,汎用圧縮フレームワークによって最適化された新しい医療支援システムを提案する。
ドメイン固有データに対するニューロンの塩分濃度を計測することにより、無関係なニューロンを積極的にプーンし、性能を保ちながらモデルサイズを小さくすることができる。
刈取後の量子化を用いてメモリフットプリントをさらに削減し,MedMCQA,MedQA,PubMedQAなどの医療ベンチマークで圧縮されたモデルを評価する。
また、50\%圧縮されたGemmaと67\%圧縮されたLLaMA3モデルをJetson Orin Nano (18.7Wピーク)とRaspberry Pi 5(6.3Wピーク)に展開し、ハードウェア制約下でリアルタイムでエネルギー効率の良い推論を実現した。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - QuantU-Net: Efficient Wearable Medical Imaging Using Bitwidth as a Trainable Parameter [0.0]
低消費電力デバイスへの効率的な展開に最適化された量子化されたU-NetであるQuantu-Netを紹介する。
このモデルは、約8倍のサイズの縮小を実現し、ウェアラブル医療機器のリアルタイム応用に適している。
論文 参考訳(メタデータ) (2025-03-10T16:25:34Z) - Optimising TinyML with Quantization and Distillation of Transformer and Mamba Models for Indoor Localisation on Edge Devices [7.229732269884237]
本稿では,資源制約エッジデバイスのための小型かつ効率的な機械学習モデル(TinyML)を提案する。
この研究は、量子化と知識蒸留を含むモデル圧縮技術に焦点を当て、モデルサイズを大幅に削減する。
これらのTinyMLモデルの医療への応用は、患者のモニタリングに革命をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-12T13:59:21Z) - Democratizing MLLMs in Healthcare: TinyLLaVA-Med for Efficient Healthcare Diagnostics in Resource-Constrained Settings [7.227964619923918]
汎用MLLMであるTinyLLaVAの最適化手法を導入し,TinyLLaVA-Medと命名した。
この適応には、LLaVA-Medトレーニングパイプラインからインスピレーションを得て、医療データセット上での命令チューニングと微調整のTinyLLaVAが含まれる。
提案手法は計算複雑性と消費電力を最小化し,TinyLLaVA-Medは18.9W,メモリは11.9GBであり,VQA-RADは64.54%,SLAKEは70.70%であった。
論文 参考訳(メタデータ) (2024-09-02T21:14:16Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MedAide: Leveraging Large Language Models for On-Premise Medical
Assistance on Edge Devices [7.042194397224198]
大規模言語モデル(LLM)は、その顕著な自然言語処理(NLP)能力によって、様々な領域に革命をもたらしている。
しかし,資源制約のあるエッジコンピューティングや組み込みシステムにLLMをデプロイすることは,大きな課題となる。
これらの課題には、限られた医療施設とインフラを備えた遠隔地での医療支援の提供が含まれる。
論文 参考訳(メタデータ) (2024-02-28T08:30:49Z) - PEFT-MedAware: Large Language Model for Medical Awareness [0.0]
我々は,特殊なMedQuADデータに基づいて,Falcon-1bの大規模言語モデルを強化するためのPEFT-MedAwareモデルを提案する。
このモデルは、特定の領域における医学的質問応答タスクにおいて、他のLSMよりも優れていた。
我々は、拡張データセット、より大きなモデル、持続医療関連性のためのフィードバックメカニズムによるさらなる改善を提案する。
論文 参考訳(メタデータ) (2023-11-17T18:32:17Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。