論文の概要: R2GenGPT: Radiology Report Generation with Frozen LLMs
- arxiv url: http://arxiv.org/abs/2309.09812v1
- Date: Mon, 18 Sep 2023 14:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:01:02.456596
- Title: R2GenGPT: Radiology Report Generation with Frozen LLMs
- Title(参考訳): R2GenGPT:凍結LDMを用いた放射線診断レポート
- Authors: Zhanyu Wang, Lingqiao Liu, Lei Wang and Luping Zhou
- Abstract要約: R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
- 参考スコア(独自算出の注目度): 47.72270349660438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have consistently showcased remarkable
generalization capabilities when applied to various language tasks.
Nonetheless, harnessing the full potential of LLMs for Radiology Report
Generation (R2Gen) still presents a challenge, stemming from the inherent
disparity in modality between LLMs and the R2Gen task. To bridge this gap
effectively, we propose R2GenGPT, which is a novel solution that aligns visual
features with the word embedding space of LLMs using an efficient visual
alignment module. This innovative approach empowers the previously static LLM
to seamlessly integrate and process image information, marking a step forward
in optimizing R2Gen performance. R2GenGPT offers the following benefits. First,
it attains state-of-the-art (SOTA) performance by training only the lightweight
visual alignment module while freezing all the parameters of LLM. Second, it
exhibits high training efficiency, as it requires the training of an
exceptionally minimal number of parameters while achieving rapid convergence.
By employing delta tuning, our model only trains 5M parameters (which
constitute just 0.07\% of the total parameter count) to achieve performance
close to the SOTA levels. Our code is available at
https://github.com/wang-zhanyu/R2GenGPT.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な言語タスクに適用する際、目覚ましい一般化機能を示し続けている。
それでも、LLMs for Radiology Report Generation (R2Gen) の潜在能力を最大限に活用することは、LLMsとR2Genタスクの相違に起因する課題である。
このギャップを効果的に埋めるために,効率的な視覚アライメントモジュールを用いて視覚特徴とLLMの単語埋め込み空間を整合させる新しいソリューションR2GenGPTを提案する。
この革新的なアプローチにより、以前の静的LLMは画像情報をシームレスに統合し、処理することができ、R2Genのパフォーマンスを最適化する一歩を踏み出した。
R2GenGPTは以下の利点を提供する。
まず、軽量な視覚アライメントモジュールのみをトレーニングし、LCMの全パラメータを凍結することで、最先端(SOTA)のパフォーマンスを実現する。
第二に、非常に最小限のパラメータのトレーニングが必要であり、迅速な収束を実現するため、高いトレーニング効率を示す。
デルタチューニングを用いることで、我々のモデルは、SOTAレベルに近い性能を達成するために、5Mパラメータ(総パラメータ数の0.07倍)のみを訓練する。
私たちのコードはhttps://github.com/wang-zhanyu/r2gengptで利用可能です。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs [44.054569398300266]
ワンパス生成・検索フレームワーク(OneGen)
OneGenは、自動回帰的に生成された検索トークンを組み込むことで、生成と検索のための従来の別々のトレーニングアプローチを橋渡しする。
その結果,LLMの生成能力を維持しつつ,検索性能の向上を図っている。
論文 参考訳(メタデータ) (2024-09-08T16:35:19Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。