論文の概要: Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2406.02547v1
- Date: Tue, 4 Jun 2024 17:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 14:50:37.012089
- Title: Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
- Title(参考訳): マルチモーダル学習における拡張テキストコンテキストのための視覚トークンの活用
- Authors: Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou,
- Abstract要約: 本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
- 参考スコア(独自算出の注目度): 68.43706033424378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training models with longer in-context lengths is a significant challenge for multimodal model due to substantial GPU memory and computational costs. This exploratory study does not present state-of-the-art models; rather, it introduces an innovative method designed to increase in-context text length in multi-modality large language models (MLLMs) efficiently. We present Visualized In-Context Text Processing (VisInContext), which processes long in-context text using visual tokens. This technique significantly reduces GPU memory usage and floating point operations (FLOPs) for both training and inferenceing stage. For instance, our method expands the pre-training in-context text length from 256 to 2048 tokens with nearly same FLOPs for a 56 billion parameter MOE model. Experimental results demonstrate that model trained with VisInContext delivers superior performance on common downstream benchmarks for in-context few-shot evaluation. Additionally, VisInContext is complementary to existing methods for increasing in-context text length and enhances document understanding capabilities, showing great potential in document QA tasks and sequential document retrieval.
- Abstract(参考訳): コンテキスト内の長さが長いトレーニングモデルは、GPUメモリと計算コストがかなり大きいため、マルチモーダルモデルにとって重要な課題である。
この探索的研究は、最先端のモデルを提示しないが、マルチモーダル大言語モデル(MLLM)において、テキスト中のテキスト長を効率的に向上するために設計された革新的な手法を導入する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
例えば、本手法では、56億のパラメータMOEモデルに対して、ほとんど同じFLOPを持つ256から2048のトークンに対して、事前学習したテキスト長を拡大する。
実験結果から、VisInContextでトレーニングされたモデルは、コンテクスト内数ショット評価のための共通のダウンストリームベンチマークにおいて優れたパフォーマンスを提供することが示された。
さらに、VisInContextは、テキスト中のテキスト長を増大させる既存のメソッドを補完し、文書理解機能を強化し、文書QAタスクやシーケンシャルな文書検索に大きな可能性を示す。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Eliciting In-Context Learning in Vision-Language Models for Videos Through Curated Data Distributional Properties [13.938281516499119]
textbfEmergent textbfIn-context textbfLearning on textbfVideos (eilev)を実装する。
我々の結果、分析、およびアイレフ学習モデルは、ビデオやテキスト上での文脈内学習の出現に関する多くの洞察を得られる。
論文 参考訳(メタデータ) (2023-11-28T18:53:06Z) - In-Context Learning with Many Demonstration Examples [26.39178386828271]
本稿では,効率的なトランス機構に基づく長距離言語モデルEVALMを提案する。
EVALMはバッチ行あたり8kトークンでトレーニングされ、256kまでのコンテキストをテストすることができる。
マルチショット・インストラクション・チューニングにおいて,テキスト内学習はより多くの実演を伴って高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-02-09T20:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。