論文の概要: From Text to Pixel: Advancing Long-Context Understanding in MLLMs
- arxiv url: http://arxiv.org/abs/2405.14213v2
- Date: Mon, 26 Aug 2024 04:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:27:05.681265
- Title: From Text to Pixel: Advancing Long-Context Understanding in MLLMs
- Title(参考訳): テキストからPixelへ:MLLMにおける長期的理解の促進
- Authors: Yujie Lu, Xiujun Li, Tsu-Jui Fu, Miguel Eckstein, William Yang Wang,
- Abstract要約: 本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
- 参考スコア(独自算出の注目度): 70.78454154014989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress in Multimodal Large Language Models (MLLMs) has significantly advanced their ability to process and understand complex visual and textual information. However, the integration of multiple images and extensive textual contexts remains a challenge due to the inherent limitation of the models' capacity to handle long input sequences efficiently. In this paper, we introduce SEEKER, a multimodal large language model designed to tackle this issue. SEEKER aims to optimize the compact encoding of long text by compressing the text sequence into the visual pixel space via images, enabling the model to handle long text within a fixed token-length budget efficiently. Our empirical experiments on six long-context multimodal tasks demonstrate that SEEKER can leverage fewer image tokens to convey the same amount of textual information compared with the OCR-based approach, and is more efficient in understanding long-form multimodal input and generating long-form textual output, outperforming all existing proprietary and open-source MLLMs by large margins.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩は、複雑な視覚情報やテキスト情報を処理し理解する能力を大幅に進歩させた。
しかし、長い入力シーケンスを効率的に処理するモデルの能力に固有の制限があるため、複数の画像と広範なテキストコンテキストの統合は依然として課題である。
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、固定トークン長の予算内で長文を効率的に扱えるようにすることで、長文のコンパクト符号化を最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実証実験により、SEEKERはOCRベースの手法に比べて少ない画像トークンを利用して同じ量のテキスト情報を伝達でき、また、長文マルチモーダル入力の理解と長文出力の生成がより効率的であり、既存のプロプライエタリおよびオープンソースMLLMを大きなマージンで上回ることを示した。
関連論文リスト
- SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation [20.106207598099363]
我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために設計された高品質なデータセットであるCoMMを紹介する。
CoMMは、教育内容とビジュアルストーリーテリングに焦点を当て、多様なソースからの生データを活用する。
さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T01:27:58Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。