論文の概要: Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models
- arxiv url: http://arxiv.org/abs/2405.15574v3
- Date: Tue, 22 Oct 2024 09:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:05.582780
- Title: Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models
- Title(参考訳): Meteor:Mambaをベースとした大規模言語と視覚モデルのためのRationaleのトラバース
- Authors: Byung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro,
- Abstract要約: We present a new efficient LLVM, Mamba based traversal of rationales (Meteor)
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
- 参考スコア(独自算出の注目度): 42.182009352159
- License:
- Abstract: The rapid development of large language and vision models (LLVMs) has been driven by advances in visual instruction tuning. Recently, open-source LLVMs have curated high-quality visual instruction tuning datasets and utilized additional vision encoders or multiple computer vision models in order to narrow the performance gap with powerful closed-source LLVMs. These advancements are attributed to multifaceted information required for diverse capabilities, including fundamental image understanding, real-world knowledge about common-sense and non-object concepts (e.g., charts, diagrams, symbols, signs, and math problems), and step-by-step procedures for solving complex questions. Drawing from the multifaceted information, we present a new efficient LLVM, Mamba-based traversal of rationales (Meteor), which leverages multifaceted rationale to enhance understanding and answering capabilities. To embed lengthy rationales containing abundant information, we employ the Mamba architecture, capable of processing sequential data with linear time complexity. We introduce a new concept of traversal of rationale that facilitates efficient embedding of rationale. Subsequently, the backbone multimodal language model (MLM) is trained to generate answers with the aid of rationale. Through these steps, Meteor achieves significant improvements in vision language performances across multiple evaluation benchmarks requiring diverse capabilities, without scaling up the model size or employing additional vision encoders and computer vision models.
- Abstract(参考訳): 大規模言語と視覚モデル(LLVM)の急速な開発は、視覚的インストラクションチューニングの進歩によって進められている。
近年、オープンソースのLLVMは、高品質なビジュアルインストラクションチューニングデータセットをキュレートし、強力なクローズドソースLLVMのパフォーマンスギャップを狭めるために、追加のビジョンエンコーダや複数のコンピュータビジョンモデルを利用している。
これらの進歩は、基本的なイメージ理解、常識や非対象概念(例えば、チャート、図、記号、記号、記号、数学問題)に関する現実世界の知識、複雑な問題を解くためのステップバイステップの手順など、多様な機能に必要な多面的な情報に起因している。
本稿では,多面的情報から,多面的理性を利用して理解と回答能力を向上させる,新しい効率的なLLVM,Mamba-based traversal of rationales(Meteor)を提案する。
豊富な情報を含む長大な論理を埋め込むために,線形時間複雑性を伴う逐次データ処理が可能なMambaアーキテクチャを用いる。
我々は, 合理的の効率的な埋め込みを容易にする, 合理的のトラバースという新しい概念を導入する。
その後、バックボーン・マルチモーダル言語モデル (MLM) を訓練し、合理性の助けを借りて回答を生成する。
これらのステップを通じて、Meteorは、モデルサイズをスケールアップしたり、追加のビジョンエンコーダやコンピュータビジョンモデルを採用することなく、さまざまな機能を必要とする複数の評価ベンチマークで、視覚言語のパフォーマンスを大幅に改善した。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Mamba Fusion: Learning Actions Through Questioning [12.127052057927182]
ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。
本稿では,長距離依存関係を効率的にキャプチャし,視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介する。
MambaVLは、Epic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-17T19:36:37Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models [14.765057045747753]
CoT(Chain-of-Thought)と関連する合理性に基づく研究は、複雑な推論タスクにおいて、LLM(Large Language Models)の性能を大幅に向上させた。
本稿では,MLLMの視覚的合理性を段階的に抽出する,IoT(Image-of-Thought)プロンプト手法を提案する。
IoTプロンプトは、さまざまなMLLMのさまざまな視覚的理解タスクにおいて、ゼロショットの視覚的推論性能を改善した。
論文 参考訳(メタデータ) (2024-05-22T17:56:51Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - MoAI: Mixture of All Intelligence for Large Language and Vision Models [42.182009352159]
Mixture of All Intelligence (MoAI)は、命令調整型大規模言語および視覚モデル(LLVM)である。
MoAIは外部セグメンテーション、検出、SGG、OCRモデルの出力から得られる補助的な視覚情報を使用する。
MoAIは、多数のゼロショットビジョン言語(VL)タスクにおいて、オープンソースとクローズドソースのLLVMの両方を著しく上回っている。
論文 参考訳(メタデータ) (2024-03-12T10:44:13Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。