論文の概要: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2408.11397v1
- Date: Wed, 21 Aug 2024 07:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:09:27.443938
- Title: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
- Title(参考訳): EAGLE: LLMを用いた視覚インストラクションチューニングによる幾何学的推論の高次化
- Authors: Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai,
- Abstract要約: 既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.631783647518706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、最近、様々なマルチモーダルタスクにおいて、急速な開発と卓越性を経験してきた。
しかし、数学的な幾何学的な問題解決には相変わらず苦労している。
既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
本稿では,図形に面したMLLMの視覚知覚性能について検討する。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
これらの制約に対処するため,LLM-Empowered visual instruction tuning を用いて幾何学的推論を行うための新しい2段階の視覚拡張MLLMフレームワークである EAGLE を提案する。
具体的には、予備段階では、完全に微調整されたCLIP ViTと凍結したLCMを含むMLLMに幾何学的画像キャプチャーペアを供給し、基本的な幾何学的知識をモデルに与えることを目的としている。
その後の段階において、視覚エンコーダにLoRAモジュールを組み込み、LLMバックボーンを解凍する。
これにより、モデルが質問と回答のペア内で固有のCoT合理性を活用することができ、MLLMにニュアンス化された視覚的手がかりに集中させ、全体的な知覚能力を高めることができる。
さらに,両段階のクロスモーダルプロジェクタを最適化し,適応的な視覚言語アライメントを促進する。
2段階の視覚強調を行った後、幾何専門家モデルEAGLE-7Bを開発した。
一般的なベンチマークに関する大規模な実験は、我々のモデルの有効性を実証している。
例えばGeoQAベンチマークでは、EAGLE-7Bは模範的なG-LLaVA 7Bモデルを2.9%上回るだけでなく、より大きなG-LLaVA 13Bモデルを上回っている。
MathVistaベンチマークでは、ERGLE-7BはプロプライエタリなモデルであるGPT-4Vに比べて3.8%改善されている。
関連論文リスト
- LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。
Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。
LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:29:55Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。