論文の概要: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2403.18252v1
- Date: Wed, 27 Mar 2024 04:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:26:17.605819
- Title: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models
- Title(参考訳): 埋め込みを超えて - マルチモーダルモデルにおけるビジュアルテーブルの約束
- Authors: Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang,
- Abstract要約: 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。
近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。
本稿では,MLLM に適した新しい視覚表現である Visual Table を提案する。シーン記述と,カテゴリ,属性,知識をインスタンスレベルで包含する複数のオブジェクト中心記述からなる,全体的視覚シーンの階層的なテキスト記述を提供する。
- 参考スコア(独自算出の注目度): 38.558250602212425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representation learning has been a cornerstone in computer vision, evolving from supervised learning with human-annotated labels to aligning image-text pairs from the Internet. Despite recent advancements in multi-modal large language models (MLLMs), the visual representations they rely on, such as CLIP embeddings, often lack access to external world knowledge critical for real-world visual reasoning. In this work, we propose Visual Table, a novel visual representation tailored for MLLMs. It provides hierarchical text descriptions of holistic visual scenes, consisting of a scene description and multiple object-centric descriptions that encompass categories, attributes, and knowledge at instance level. We further develop a scalable generator for visual table generation and train it on small-scale annotations from GPT4V. Extensive evaluations demonstrate that, with generated visual tables as additional visual representations, our model can consistently outperform the state-of-the-art (SOTA) MLLMs across diverse benchmarks. When visual tables serve as standalone visual representations, our model can closely match or even beat the SOTA MLLMs that are built on CLIP visual embeddings. Our code is available at https://github.com/LaVi-Lab/Visual-Table.
- Abstract(参考訳): 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。
近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。
本研究では,MLLMに適した新しい視覚表現であるビジュアルテーブルを提案する。
全体的視覚シーンの階層的なテキスト記述を提供し、シーン記述と、インスタンスレベルでのカテゴリ、属性、知識を含む複数のオブジェクト中心の記述で構成されている。
さらに,視覚テーブル生成のための拡張性のあるジェネレータを開発し,GPT4Vから小規模アノテーションで学習する。
広汎な評価により、生成した視覚テーブルを視覚表現として使用することで、我々のモデルは様々なベンチマークで常に最先端(SOTA)MLLMよりも優れた性能を発揮することが示される。
ビジュアルテーブルがスタンドアロンの視覚表現として機能する場合、私たちのモデルはCLIPビジュアル埋め込み上に構築されたSOTA MLLMと密にマッチしたり、打ち負かしたりできます。
私たちのコードはhttps://github.com/LaVi-Lab/Visual-Table.comで利用可能です。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文 参考訳(メタデータ) (2023-11-22T09:23:34Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。
具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文 参考訳(メタデータ) (2022-07-09T05:40:08Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。