Fugu-MT 論文翻訳(概要): TroL: Traversal of Layers for Large Language and Vision Models

論文の概要: TroL: Traversal of Layers for Large Language and Vision Models

arxiv url: http://arxiv.org/abs/2406.12246v3
Date: Wed, 25 Sep 2024 08:17:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:22:29.864843
Title: TroL: Traversal of Layers for Large Language and Vision Models
Title（参考訳）: TroL: 大規模言語とビジョンモデルのためのレイヤのトラバース
Authors: Byung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro,
Abstract要約: 大言語とビジョンモデル(LLVM)は、大言語モデル(LLM)の一般化力によって駆動されている。 GPT-4VのようなクローズドソースLLVMと互換性のある既存のオープンソースLLVMは、大きすぎると考えられていることが多い。 1.8B, 3.8B, 7B LLMモデルサイズ, Traversal of Layers (TroL) を持つLLVMファミリーを新たに提案する。我々は、TroLが単純な層トラバースアプローチを採用しているが、より大きなモデルサイズを持つオープンソースのLLVMよりも効率的に性能を向上することを示した。
参考スコア（独自算出の注目度）: 39.31786216877119
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language and vision models (LLVMs) have been driven by the generalization power of large language models (LLMs) and the advent of visual instruction tuning. Along with scaling them up directly, these models enable LLVMs to showcase powerful vision language (VL) performances by covering diverse tasks via natural language instructions. However, existing open-source LLVMs that perform comparably to closed-source LLVMs such as GPT-4V are often considered too large (e.g., 26B, 34B, and 110B parameters), having a larger number of layers. These large models demand costly, high-end resources for both training and inference. To address this issue, we present a new efficient LLVM family with 1.8B, 3.8B, and 7B LLM model sizes, Traversal of Layers (TroL), which enables the reuse of layers in a token-wise manner. This layer traversing technique simulates the effect of looking back and retracing the answering stream while increasing the number of forward propagation layers without physically adding more layers. We demonstrate that TroL employs a simple layer traversing approach yet efficiently outperforms the open-source LLVMs with larger model sizes and rivals the performances of the closed-source LLVMs with substantial sizes.
Abstract（参考訳）: 大規模言語と視覚モデル(LLVM)は、大規模言語モデル(LLM)の一般化力と視覚的インストラクションチューニングの出現によって駆動されている。これらのモデルを直接スケールアップすることで、LLVMはさまざまなタスクを自然言語命令でカバーすることで、強力なビジョン言語(VL)のパフォーマンスを誇示することができる。しかし、GPT-4VのようなクローズドソースのLLVMと互換性のある既存のLLVMは、層数が多すぎる(例:26B、34B、110Bパラメータ)。これらの大きなモデルは、トレーニングと推論の両方に費用がかかるハイエンドのリソースを必要とします。この問題に対処するため、トークン的にレイヤを再利用可能な、1.8B, 3.8B, 7B LLMモデルサイズを持つLLVMファミリー、Traversal of Layers (TroL)を提案する。この層トラバース技術は、応答ストリームを振り返り、追跡する効果をシミュレートし、さらに多くの層を追加せずに前方伝播層の数を増やします。我々は,TroLが単純なレイヤトラバースアプローチを採用しながら,より大きなモデルサイズでオープンソースLLVMを効率よく上回り,かなりのサイズでクローズドソースLLVMのパフォーマンスに匹敵することを示した。

関連論文リスト

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs [61.903626952650605]
2tower Vision-Language Models (VLM) は、様々な下流VLタスクに強い性能を示す。我々は,訓練済みの未学習専門家のさまざまなレベルからの洞察を適応的に集約する,軽量で効率的で効果的なプラグインであるManageerを提案する。
論文参考訳（メタデータ） (2025-06-13T07:16:41Z)
Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。 mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文参考訳（メタデータ） (2025-02-14T13:10:39Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。 GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文参考訳（メタデータ） (2024-12-02T18:58:25Z)
Phantom of Latent for Large Language and Vision Models [39.31786216877119]
モデルサイズ0.5B,1.8B,3.8B,7Bパラメータを持つ新しい効率的なLLVMファミリーPhantomを提案する。 LLVMは、物理的モデルのサイズを大幅に増加させることなく、潜在言語に関するよりビジョン的な知識を、より深く検討し、理解する準備を整えます。
論文参考訳（メタデータ） (2024-09-23T05:19:06Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
MoAI: Mixture of All Intelligence for Large Language and Vision Models [42.182009352159]
Mixture of All Intelligence (MoAI)は、命令調整型大規模言語および視覚モデル(LLVM)である。 MoAIは外部セグメンテーション、検出、SGG、OCRモデルの出力から得られる補助的な視覚情報を使用する。 MoAIは、多数のゼロショットビジョン言語(VL)タスクにおいて、オープンソースとクローズドソースのLLVMの両方を著しく上回っている。
論文参考訳（メタデータ） (2024-03-12T10:44:13Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文参考訳（メタデータ） (2024-02-18T20:47:10Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。 DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文参考訳（メタデータ） (2023-06-21T18:45:56Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。