論文の概要: GeoDANO: Geometric VLM with Domain Agnostic Vision Encoder
- arxiv url: http://arxiv.org/abs/2502.11360v1
- Date: Mon, 17 Feb 2025 02:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:46.361738
- Title: GeoDANO: Geometric VLM with Domain Agnostic Vision Encoder
- Title(参考訳): GeoDANO: ドメインに依存しない視覚エンコーダを備えた幾何学的VLM
- Authors: Seunghyuk Cho, Zhenyue Qin, Yang Liu, Youngbin Choi, Seungbeom Lee, Dongwoo Kim,
- Abstract要約: 平面幾何学問題を解くために,ドメインに依存しない視覚エンコーダを備えた幾何学的視覚言語モデル(VLM)であるGeoDANOを紹介する。
- 参考スコア(独自算出の注目度): 8.887710491315088
- License:
- Abstract: We introduce GeoDANO, a geometric vision-language model (VLM) with a domain-agnostic vision encoder, for solving plane geometry problems. Although VLMs have been employed for solving geometry problems, their ability to recognize geometric features remains insufficiently analyzed. To address this gap, we propose a benchmark that evaluates the recognition of visual geometric features, including primitives such as dots and lines, and relations such as orthogonality. Our preliminary study shows that vision encoders often used in general-purpose VLMs, e.g., OpenCLIP, fail to detect these features and struggle to generalize across domains. We develop GeoCLIP, a CLIP based model trained on synthetic geometric diagram-caption pairs to overcome the limitation. Benchmark results show that GeoCLIP outperforms existing vision encoders in recognizing geometric features. We then propose our VLM, GeoDANO, which augments GeoCLIP with a domain adaptation strategy for unseen diagram styles. GeoDANO outperforms specialized methods for plane geometry problems and GPT-4o on MathVerse.
- Abstract(参考訳): 平面幾何学問題を解くために,ドメインに依存しない視覚エンコーダを備えた幾何学的視覚言語モデル(VLM)であるGeoDANOを紹介する。
VLMは幾何学的問題を解くのに使われてきたが、幾何学的特徴を認識する能力はいまだに不十分である。
このギャップに対処するために,ドットや線などの原始的特徴や直交関係などの視覚幾何学的特徴の認識を評価するベンチマークを提案する。
我々の予備研究は、視覚エンコーダが汎用VLM(例えばOpenCLIP)でよく使われることを示し、これらの特徴を検知できず、ドメイン間の一般化に苦慮している。
我々は,この制限を克服するために,合成幾何学的図形カプセル対に基づいて訓練されたCLIPベースモデルであるGeoCLIPを開発した。
ベンチマークの結果,GeoCLIPは幾何学的特徴を認識する上で,既存の視覚エンコーダよりも優れていた。
そこで我々は,GeoCLIPをドメイン適応戦略で拡張したVLMであるGeoDANOを提案する。
GeoDANOは、平面幾何学問題とMathVerse上のGPT-4oの特殊手法より優れている。
関連論文リスト
- GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - GeoCalib: Learning Single-image Calibration with Geometric Optimization [89.84142934465685]
単一の画像から視覚的な手がかりは、焦点距離や重力方向などの内在的および外在的なカメラパラメータを推定するのに役立ちます。
この問題に対する現在のアプローチは、行と消滅点を持つ古典幾何学か、エンドツーエンドで訓練されたディープニューラルネットワークに基づいている。
最適化プロセスを通じて3次元幾何学の普遍的な規則を利用するディープニューラルネットワークであるGeoCalibを紹介する。
論文 参考訳(メタデータ) (2024-09-10T17:59:55Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Fast Marching Energy CNN [5.392025723672817]
我々はCNNを用いて問題に適応した等方的リーマン計量を生成する新しい手法を提案する。
次に、このアイデアをCNNによって出力された測地線距離の単位球として脳腫瘍のセグメント化に適用する。
測地線距離モジュールは、幾何学的および/または位相的特性を確保しつつ、最先端の性能を達成するために使用できることを示す。
論文 参考訳(メタデータ) (2023-06-28T11:24:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。