Fugu-MT 論文翻訳(概要): EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

論文の概要: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

arxiv url: http://arxiv.org/abs/2408.11397v1
Date: Wed, 21 Aug 2024 07:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 18:09:27.443938
Title: EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning
Title（参考訳）: EAGLE: LLMを用いた視覚インストラクションチューニングによる幾何学的推論の高次化
Authors: Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai,
Abstract要約: 既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。 ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
参考スコア（独自算出の注目度）: 16.631783647518706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.
Abstract（参考訳）: マルチモーダル大規模言語モデルは、最近、様々なマルチモーダルタスクにおいて、急速な開発と卓越性を経験してきた。しかし、数学的な幾何学的な問題解決には相変わらず苦労している。既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。本稿では,図形に面したMLLMの視覚知覚性能について検討する。以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。これらの制約に対処するため,LLM-Empowered visual instruction tuning を用いて幾何学的推論を行うための新しい2段階の視覚拡張MLLMフレームワークである EAGLE を提案する。具体的には、予備段階では、完全に微調整されたCLIP ViTと凍結したLCMを含むMLLMに幾何学的画像キャプチャーペアを供給し、基本的な幾何学的知識をモデルに与えることを目的としている。その後の段階において、視覚エンコーダにLoRAモジュールを組み込み、LLMバックボーンを解凍する。これにより、モデルが質問と回答のペア内で固有のCoT合理性を活用することができ、MLLMにニュアンス化された視覚的手がかりに集中させ、全体的な知覚能力を高めることができる。さらに,両段階のクロスモーダルプロジェクタを最適化し,適応的な視覚言語アライメントを促進する。 2段階の視覚強調を行った後、幾何専門家モデルEAGLE-7Bを開発した。一般的なベンチマークに関する大規模な実験は、我々のモデルの有効性を実証している。例えばGeoQAベンチマークでは、EAGLE-7Bは模範的なG-LLaVA 7Bモデルを2.9%上回るだけでなく、より大きなG-LLaVA 13Bモデルを上回っている。 MathVistaベンチマークでは、ERGLE-7BはプロプライエタリなモデルであるGPT-4Vに比べて3.8%改善されている。

関連論文リスト

GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs [66.55945133516776]
本稿では,光学的認証画像の生成と光現象の理解という,MLLMの能力を評価する最初のベンチマークであるGOBenchを紹介する。 MLLMを用いてGOBench-Gen-1kデータセットを構築し,光学的正当性,審美的品質,インストラクション忠実度に基づいて生成した画像を評価する。本研究は,11個の著名なMLLMの光学的理解能力をテストするために,工芸的な評価手法を適用し,実験結果から,光学的生成と理解の両方において,現在のモデルが重大な課題に直面していることが示されている。
論文参考訳（メタデータ） (2025-06-01T12:46:14Z)
Training-Free Reasoning and Reflection in MLLMs [45.134271969594614]
本稿では,FRANKモデルについて紹介する。FRANKモデルとは,既製のMLLMに推論とリフレクションを付与したトレーニングフレームANd r1-liKe MLLMである。私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。そこで本研究では, 深いデコーダ層に推論能力を統合する, テイラー型閉形式融合機構を提案する。
論文参考訳（メタデータ） (2025-05-22T02:51:12Z)
LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。 Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。 LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文参考訳（メタデータ） (2025-01-13T00:29:55Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Investigating the Catastrophic Forgetting in Multimodal Large Language Models [43.89009178021342]
MLLMにおける破滅的忘れの評価のためのMulTimodalityを評価するEMTについて紹介する。ほぼ全ての評価されたMLLMは、標準的な画像分類タスクにおけるビジョンエンコーダと同じパフォーマンスレベルを維持することができない。微調整が進むにつれて、MLLMは幻覚し始め、一般化可能性が著しく失われる。
論文参考訳（メタデータ） (2023-09-19T04:51:13Z)
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-09-13T17:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。