論文の概要: Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
- arxiv url: http://arxiv.org/abs/2403.18252v2
- Date: Mon, 17 Jun 2024 09:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:17:19.356766
- Title: Beyond Embeddings: The Promise of Visual Table in Visual Reasoning
- Title(参考訳): Beyond Embeddings: Visual ReasoningにおけるVisual Tableの約束
- Authors: Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang,
- Abstract要約: 視覚的推論に適した新しい視覚表現形式である視覚表を提案する。
ビジュアルテーブルは、視覚シーンの階層的な記述として構築され、シーン記述と複数のオブジェクト中心の記述が特徴である。
それらは、視覚的推論に不可欠な、インスタンスレベルの世界知識と詳細な属性を提供します。
- 参考スコア(独自算出の注目度): 38.558250602212425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representation learning has been a cornerstone in computer vision, involving typical forms such as visual embeddings, structural symbols, and text-based representations. Despite the success of CLIP-type visual embeddings, they often lack access to world knowledge critical for visual reasoning. In this work, we propose Visual Table, a novel form of visual representation tailored for visual reasoning. Visual tables are constructed as hierarchical descriptions of visual scenes, featuring a scene description and multiple object-centric descriptions covering categories, attributes, and knowledge. Thanks to the structural and textual formats, visual tables offer unique advantages over mere visual embeddings, such as interpretability and controllable editing. Furthermore, they deliver instance-level world knowledge and detailed attributes that are essential for visual reasoning. To create visual tables, we develop a generator trained on the dataset with collected, small-scale annotations. Extensive results on 11 visual reasoning benchmarks demonstrate that the generated visual tables significantly outperform previous structural and text-based representations. Moreover, they consistently enhance state-of-the-art multimodal large language models across diverse benchmarks, showcasing their potential for advancing visual reasoning tasks. Our code is available at https://github.com/LaVi-Lab/Visual-Table.
- Abstract(参考訳): 視覚表現学習はコンピュータビジョンの基盤であり、視覚埋め込み、構造記号、テキストベースの表現などの典型的な形式を含んでいる。
CLIP型視覚埋め込みの成功にもかかわらず、視覚的推論にとって重要な世界知識へのアクセスが欠如していることが多い。
本研究では,視覚的推論に適した新しい視覚表現形式である視覚表を提案する。
ビジュアルテーブルは、視覚シーンの階層的な記述として構築され、シーン記述とカテゴリ、属性、知識を含む複数のオブジェクト中心の記述が特徴である。
構造的およびテキスト的フォーマットのおかげで、ビジュアルテーブルは、解釈可能性や制御可能な編集など、単に視覚的な埋め込みよりも独特なアドバンテージを提供する。
さらに、視覚的推論に不可欠な、インスタンスレベルの世界知識と詳細な属性を提供する。
ビジュアルテーブルを作成するために、収集された小さなアノテーションを用いてデータセット上で訓練されたジェネレータを開発する。
11の視覚的推論ベンチマークの結果は、生成した視覚表が、以前の構造的およびテキストベースの表現よりも大幅に優れていたことを示している。
さらに、さまざまなベンチマークで最先端のマルチモーダルな大規模言語モデルを強化し、視覚的推論タスクを前進させる可能性を示している。
私たちのコードはhttps://github.com/LaVi-Lab/Visual-Table.comで利用可能です。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文 参考訳(メタデータ) (2023-11-22T09:23:34Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文 参考訳(メタデータ) (2022-07-09T05:40:08Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。