論文の概要: Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
- arxiv url: http://arxiv.org/abs/2412.08737v1
- Date: Wed, 11 Dec 2024 19:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:48.645282
- Title: Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
- Title(参考訳): Euclid: 合成高忠実度ビジュアル記述によるマルチモーダルLCMのスーパーチャージ
- Authors: Jiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger,
- Abstract要約: 本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。
次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。
我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
- 参考スコア(独自算出の注目度): 23.294711275107606
- License:
- Abstract: Multimodal large language models (MLLMs) have made rapid progress in recent years, yet continue to struggle with low-level visual perception (LLVP) -- particularly the ability to accurately describe the geometric details of an image. This capability is crucial for applications in areas such as robotics, medical image analysis, and manufacturing. In this paper, we first introduce Geoperception, a benchmark designed to evaluate an MLLM's ability to accurately transcribe 2D geometric information from an image. Using this benchmark, we demonstrate the limitations of leading MLLMs, and then conduct a comprehensive empirical study to explore strategies for improving their performance on geometric tasks. Our findings highlight the benefits of certain model architectures, training techniques, and data strategies, including the use of high-fidelity synthetic data and multi-stage training with a data curriculum. Notably, we find that a data curriculum enables models to learn challenging geometry understanding tasks which they fail to learn from scratch. Leveraging these insights, we develop Euclid, a family of models specifically optimized for strong low-level geometric perception. Although purely trained on synthetic multimodal data, Euclid shows strong generalization ability to novel geometry shapes. For instance, Euclid outperforms the best closed-source model, Gemini-1.5-Pro, by up to 58.56% on certain Geoperception benchmark tasks and 10.65% on average across all tasks.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年急速に進歩しているが、特に画像の幾何学的詳細を正確に記述する能力である低レベル視覚知覚(LLVP)に苦戦している。
この能力は、ロボット工学、医用画像分析、製造などの分野の応用に不可欠である。
本稿ではまず,画像から2次元の幾何学情報を正確に転写するMLLMの能力を評価するためのベンチマークであるGeoperceptionを紹介する。
このベンチマークを用いて,MLLMをリードする限界を実証し,幾何学的タスクにおける性能向上のための戦略を探るため,総合的な実証的研究を行う。
本研究は,高忠実度合成データの利用やデータカリキュラムによる多段階学習など,特定のモデルアーキテクチャ,トレーニング手法,データストラテジーのメリットを浮き彫りにしている。
特に、データカリキュラムによって、スクラッチから学習するのに失敗する幾何学的理解タスクを、モデルが学習することができることが分かりました。
これらの知見を活用することで、強い低レベルの幾何学的知覚に特異的に最適化されたモデルのファミリーであるEuclidを開発する。
合成マルチモーダルデータに基づいて純粋に訓練されているにもかかわらず、ユークリッドは幾何学的形状を創出するための強力な一般化能力を示している。
例えば、Euclidは最高のクローズドソースモデルであるGemini-1.5-Proを、Geoperceptionベンチマークタスクで58.56%、全タスクで平均10.65%で上回っている。
関連論文リスト
- Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。
提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。
本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2024-11-25T04:06:48Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - GeoMeter: Probing Depth and Height Perception of Large Visual-Language Models [21.209275651704758]
視覚言語モデル(VLM)の幾何学的理解に焦点を当てる。
我々は,Synthetic 2D,Synthetic 3D,Real-Worldシナリオを含むデータセットを用いて17の最先端VLMをベンチマークする。
我々の重要な洞察は、VLMの深さと高さの推論能力の欠点と、これらのモデルに存在する固有のバイアスを詳細に分析することである。
論文 参考訳(メタデータ) (2024-08-21T16:16:18Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Evaluating the Effectiveness of Large Language Models in Representing
Textual Descriptions of Geometry and Spatial Relations [2.8935588665357086]
本研究では,大規模言語モデル(LLM)の空間的関係の表現能力を評価することに焦点を当てた。
我々は GPT-2 や BERT などの LLM を用いて、よく知られたジオメトリのテキスト (WKT) フォーマットを符号化し、それらの埋め込みを分類器や回帰器に入力する。
実験では、LLMが生成した埋め込みは幾何型を保存し、いくつかの空間的関係(精度は73%まで)を捉えることができるが、数値を推定し、空間的関連オブジェクトを検索する際の課題が残っている。
論文 参考訳(メタデータ) (2023-07-05T03:50:08Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。