論文の概要: Visually Descriptive Language Model for Vector Graphics Reasoning
- arxiv url: http://arxiv.org/abs/2404.06479v4
- Date: Thu, 03 Oct 2024 21:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:40.692946
- Title: Visually Descriptive Language Model for Vector Graphics Reasoning
- Title(参考訳): ベクトルグラフ推論のための視覚記述型言語モデル
- Authors: Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji,
- Abstract要約: 低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 76.42082386029206
- License:
- Abstract: Despite significant advancements, large multimodal models (LMMs) still struggle to bridge the gap between low-level visual perception -- focusing on shapes, sizes, and layouts -- and high-level language reasoning, such as semantics and logic. This limitation is evident in tasks that require precise visual perception, like comparing geometric properties or solving visual reasoning problems. To study this failure mode, we focus on vector graphics -- images composed of 2D objects and shapes, prevalent in LMM-based tasks in web, design, and OS environments. We identify two key research questions: how can we enable precise visual perception, and how can we facilitate high-level reasoning based on such low-level perceptions? To capture fine visual details, we use Scalable Vector Graphics (SVG) for accurate encoding of visual scenes. However, SVGs are not readily interpretable by LMMs in a zero-shot manner. To tackle this, we propose the Visually Descriptive Language Model (VDLM), which introduces a Primal Visual Description (PVD) as an intermediate textual representation. PVD translates SVGs into a text-based abstraction consisting of primitive attributes (e.g., shape, position, measurement) and their corresponding values. PVD can be learned using task-agnostic synthesized data and represents visual primitives that are universal across vector graphics. This abstraction is more structured, allowing for direct interpretation by foundation models for zero-shot generalization. Without human-annotated data, empirical results show that VDLM significantly improves state-of-the-art LMMs like GPT-4o on various multimodal perception and reasoning tasks. Extensive analyses of VDLM show improved interpretability due to its disentangled perception and reasoning. We also demonstrate a positive correlation between PVD quality and task performance. Project page: https://mikewangwzhl.github.io/VDLM/
- Abstract(参考訳): 大幅な進歩にもかかわらず、大きなマルチモーダルモデル(LMM)は、形、サイズ、レイアウトに焦点を当てた低レベルの視覚知覚と、意味論や論理学のような高レベルの言語推論とのギャップを埋めるのに依然として苦労している。
この制限は、幾何学的性質の比較や視覚的推論問題の解法など、正確な視覚的知覚を必要とするタスクにおいて明らかである。
この障害モードを研究するために、Web、デザイン、OS環境におけるLMMベースのタスクで広く使われている2Dオブジェクトと形状からなるベクターグラフィックスに焦点を当てた。
この2つの重要な研究課題は、どのようにして正確な視覚知覚を可能にするのか、そして、そのような低レベルな認識に基づいてどのようにハイレベルな推論を促進するのかである。
ビジュアルシーンの正確なエンコーディングには,SVG (Scalable Vector Graphics) を用いる。
しかし、SVGはゼロショット方式でLMMによって容易に解釈できない。
そこで本稿では,VDLM(Visually Descriptive Language Model)を提案する。
PVDはSVGをプリミティブ属性(例えば、形状、位置、測定)とその対応する値からなるテキストベースの抽象化に変換する。
PVDはタスクに依存しない合成データを用いて学習でき、ベクトルグラフィックスで普遍的な視覚的プリミティブを表現する。
この抽象化はより構造化されており、ゼロショット一般化のための基礎モデルによる直接解釈が可能である。
人間の注釈のない実験結果から、VDLMは様々なマルチモーダル認識や推論タスクにおいて、GPT-4oのような最先端のLMMを著しく改善することが示された。
VDLMの広汎な解析では、その不整合知覚と推論により、解釈可能性が改善された。
また,PVDの品質とタスク性能の正の相関を示す。
プロジェクトページ: https://mikewangwzhl.github.io/VDLM/
関連論文リスト
- Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation [28.1277394934428]
VGBenchは、ベクトルグラフィックスを扱うためのLLM(Large Language Models)の包括的なベンチマークである。
LLMは両面に強い能力を示し、低レベルフォーマット(SVG)では望ましい性能は低い。
論文 参考訳(メタデータ) (2024-07-15T17:59:55Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。