論文の概要: Text-Based Reasoning About Vector Graphics
- arxiv url: http://arxiv.org/abs/2404.06479v3
- Date: Fri, 24 May 2024 19:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:07:03.632340
- Title: Text-Based Reasoning About Vector Graphics
- Title(参考訳): テキストによるベクトルグラフィクスの推論
- Authors: Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji,
- Abstract要約: 本稿では,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
プリマルビジュアル記述(PVD)による事前訓練言語モデルを用いたVDLMブリッジ
我々のフレームワークは、その不整合認識と推論プロセスにより、より良い解釈可能性を提供します。
- 参考スコア(独自算出の注目度): 76.42082386029206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics -- images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM's performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
- Abstract(参考訳): 大規模なマルチモーダルモデルは広いビジョン言語ベンチマークで優れているが、線長の比較や単純な迷路の解法など、低レベルの視覚的詳細を正確に認識するタスクに苦慮することが多い。
特に、この障害モードは、ベクトルグラフィックスに関する質問応答タスクで持続する。
この課題に対処するために,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。
VDLMは、より正確なビジュアル記述のために、スケーラブルベクトルグラフィックス(SVG)を活用し、最初にエンコーディングのために、既製のラスター・ツー・SVGアルゴリズムを使用する。
既存の言語モデルはゼロショット設定では生のSVGを理解できないため、VDLMは新しく導入された中間記号表現であるPrimal Visual Description (PVD)を通じて、SVGを事前訓練された言語モデルでブリッジする。
PVDはタスクに依存しず、全てのベクトルグラフィックスで普遍的な視覚的プリミティブを表す。
手続き的に生成された (SVG, PVD) ペアで学習でき、複雑な推論タスクへの一般化に LLM を直接使用することができる。
画像をテキストベース表現にキャストすることで、言語モデルのパワーを活用して、SVGからビジュアルプリミティブへのアライメントを学び、目に見えない質問応答タスクに一般化することができる。
実験結果から,VDLMはGPT-4Vのような最先端のLMMと比較して,低レベルのマルチモーダル認識やベクトルグラフィックスの推論タスクにおいて,より強力なゼロショット性能を実現することが示された。
また,VDLMの性能に関する広範囲な分析を行い,このフレームワークは,その不整合認識と推論プロセスにより,より優れた解釈性を提供することを示した。
プロジェクトページ: https://mikewangwzhl.github.io/VDLM/
関連論文リスト
- Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation [28.1277394934428]
VGBenchは、ベクトルグラフィックスを扱うためのLLM(Large Language Models)の包括的なベンチマークである。
LLMは両面に強い能力を示し、低レベルフォーマット(SVG)では望ましい性能は低い。
論文 参考訳(メタデータ) (2024-07-15T17:59:55Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。