論文の概要: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2408.11397v1
- Date: Wed, 21 Aug 2024 07:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:09:27.443938
- Title: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
- Title(参考訳): EAGLE: LLMを用いた視覚インストラクションチューニングによる幾何学的推論の高次化
- Authors: Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai,
- Abstract要約: 既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.631783647518706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、最近、様々なマルチモーダルタスクにおいて、急速な開発と卓越性を経験してきた。
しかし、数学的な幾何学的な問題解決には相変わらず苦労している。
既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
本稿では,図形に面したMLLMの視覚知覚性能について検討する。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
これらの制約に対処するため,LLM-Empowered visual instruction tuning を用いて幾何学的推論を行うための新しい2段階の視覚拡張MLLMフレームワークである EAGLE を提案する。
具体的には、予備段階では、完全に微調整されたCLIP ViTと凍結したLCMを含むMLLMに幾何学的画像キャプチャーペアを供給し、基本的な幾何学的知識をモデルに与えることを目的としている。
その後の段階において、視覚エンコーダにLoRAモジュールを組み込み、LLMバックボーンを解凍する。
これにより、モデルが質問と回答のペア内で固有のCoT合理性を活用することができ、MLLMにニュアンス化された視覚的手がかりに集中させ、全体的な知覚能力を高めることができる。
さらに,両段階のクロスモーダルプロジェクタを最適化し,適応的な視覚言語アライメントを促進する。
2段階の視覚強調を行った後、幾何専門家モデルEAGLE-7Bを開発した。
一般的なベンチマークに関する大規模な実験は、我々のモデルの有効性を実証している。
例えばGeoQAベンチマークでは、EAGLE-7Bは模範的なG-LLaVA 7Bモデルを2.9%上回るだけでなく、より大きなG-LLaVA 13Bモデルを上回っている。
MathVistaベンチマークでは、ERGLE-7BはプロプライエタリなモデルであるGPT-4Vに比べて3.8%改善されている。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Investigating the Catastrophic Forgetting in Multimodal Large Language
Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。
ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。
微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文 参考訳(メタデータ) (2023-09-19T04:51:13Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。