論文の概要: R2GenGPT: Radiology Report Generation with Frozen LLMs
- arxiv url: http://arxiv.org/abs/2309.09812v2
- Date: Sun, 5 Nov 2023 07:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:47:48.090725
- Title: R2GenGPT: Radiology Report Generation with Frozen LLMs
- Title(参考訳): R2GenGPT:凍結LDMを用いた放射線診断レポート
- Authors: Zhanyu Wang, Lingqiao Liu, Lei Wang and Luping Zhou
- Abstract要約: R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
- 参考スコア(独自算出の注目度): 47.72270349660438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have consistently showcased remarkable
generalization capabilities when applied to various language tasks.
Nonetheless, harnessing the full potential of LLMs for Radiology Report
Generation (R2Gen) still presents a challenge, stemming from the inherent
disparity in modality between LLMs and the R2Gen task. To bridge this gap
effectively, we propose R2GenGPT, which is a novel solution that aligns visual
features with the word embedding space of LLMs using an efficient visual
alignment module. This innovative approach empowers the previously static LLM
to seamlessly integrate and process image information, marking a step forward
in optimizing R2Gen performance. R2GenGPT offers the following benefits. First,
it attains state-of-the-art (SOTA) performance by training only the lightweight
visual alignment module while freezing all the parameters of LLM. Second, it
exhibits high training efficiency, as it requires the training of an
exceptionally minimal number of parameters while achieving rapid convergence.
By employing delta tuning, our model only trains 5M parameters (which
constitute just 0.07\% of the total parameter count) to achieve performance
close to the SOTA levels. Our code is available at
https://github.com/wang-zhanyu/R2GenGPT.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な言語タスクに適用する際、目覚ましい一般化機能を示し続けている。
それでも、LLMs for Radiology Report Generation (R2Gen) の潜在能力を最大限に活用することは、LLMsとR2Genタスクの相違に起因する課題である。
このギャップを効果的に埋めるために,効率的な視覚アライメントモジュールを用いて視覚特徴とLLMの単語埋め込み空間を整合させる新しいソリューションR2GenGPTを提案する。
この革新的なアプローチにより、以前の静的LLMは画像情報をシームレスに統合し、処理することができ、R2Genのパフォーマンスを最適化する一歩を踏み出した。
R2GenGPTは以下の利点を提供する。
まず、軽量な視覚アライメントモジュールのみをトレーニングし、LCMの全パラメータを凍結することで、最先端(SOTA)のパフォーマンスを実現する。
第二に、非常に最小限のパラメータのトレーニングが必要であり、迅速な収束を実現するため、高いトレーニング効率を示す。
デルタチューニングを用いることで、我々のモデルは、SOTAレベルに近い性能を達成するために、5Mパラメータ(総パラメータ数の0.07倍)のみを訓練する。
私たちのコードはhttps://github.com/wang-zhanyu/r2gengptで利用可能です。
関連論文リスト
- Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Full Parameter Fine-tuning for Large Language Models with Limited
Resources [41.05569573467512]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。