論文の概要: Phantom of Latent for Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2409.14713v1
- Date: Mon, 23 Sep 2024 05:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:23:54.408738
- Title: Phantom of Latent for Large Language and Vision Models
- Title(参考訳): 大規模言語と視覚モデルのための潜在能力のファントム
- Authors: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro,
- Abstract要約: モデルサイズ0.5B,1.8B,3.8B,7Bパラメータを持つ新しい効率的なLLVMファミリーPhantomを提案する。
LLVMは、物理的モデルのサイズを大幅に増加させることなく、潜在言語に関するよりビジョン的な知識を、より深く検討し、理解する準備を整えます。
- 参考スコア(独自算出の注目度): 39.31786216877119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of visual instruction tuning has accelerated the development of large language and vision models (LLVMs). Following the scaling laws of instruction-tuned large language models (LLMs), LLVMs either have further increased their sizes, reaching 26B, 34B, and even 80B parameters. While this increase in model size has yielded significant performance gains, it demands substantially more hardware resources for both training and inference. Consequently, there naturally exists a strong need for efficient LLVMs that achieve the performance of larger models while being smaller in size. To achieve this need, we present a new efficient LLVM family with model sizes of 0.5B, 1.8B, 3.8B, and 7B parameters, Phantom, which significantly enhances learning capabilities within limited structures. By temporarily increasing the latent hidden dimension during multi-head self-attention (MHSA), we make LLVMs prepare to look and understand much more vision-language knowledge on the latent, without substantially increasing physical model sizes. To maximize its advantage, we introduce Phantom Optimization (PO) using both autoregressive supervised fine-tuning (SFT) and direct preference optimization (DPO)-like concept, which effectively follows correct answers while eliminating incorrect and ambiguous ones. Phantom outperforms numerous larger open- and closed-source LLVMs, positioning itself as a leading solution in the landscape of efficient LLVMs.
- Abstract(参考訳): ビジュアル・インストラクション・チューニングの成功は、大規模言語とビジョン・モデル(LLVM)の開発を加速させた。
命令チューニングされた大規模言語モデル(LLM)のスケーリング法則に従って、LLVMはさらにサイズを拡大し、26B、34B、80Bパラメータまで到達した。
このモデルサイズの増加は大幅なパフォーマンス向上をもたらしたが、トレーニングと推論の両方にハードウェアリソースをかなり必要としている。
結果として、より小さいサイズで、より大きなモデルのパフォーマンスを実現する効率的なLLVMが、当然必要である。
これを実現するために,モデルサイズ0.5B,1.8B,3.8B,7Bパラメータを持つLLVMファミリであるPhantomを提案する。
マルチヘッド自己認識(MHSA)中の潜伏隠れ次元を一時的に増大させることにより、LLVMは物理的モデルサイズを大幅に増大させることなく、潜伏者の視覚言語知識をより多く理解する準備を整える。
その利点を最大化するために,自己回帰的教師付き微調整(SFT)と直接選好最適化(DPO)のような概念を用いてファントム最適化(PO)を導入する。
Phantomは、多数の大規模なオープンソースおよびクローズドソースのLLVMよりも優れており、効率的なLLVMの展望における主要なソリューションとして位置づけられている。
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - TroL: Traversal of Layers for Large Language and Vision Models [39.31786216877119]
大言語とビジョンモデル(LLVM)は、大言語モデル(LLM)の一般化力によって駆動されている。
GPT-4VのようなクローズドソースLLVMと互換性のある既存のオープンソースLLVMは、大きすぎると考えられていることが多い。
1.8B, 3.8B, 7B LLMモデルサイズ, Traversal of Layers (TroL) を持つLLVMファミリーを新たに提案する。
我々は、TroLが単純な層トラバースアプローチを採用しているが、より大きなモデルサイズを持つオープンソースのLLVMよりも効率的に性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-18T03:42:00Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。