論文の概要: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2403.18252v1
- Date: Wed, 27 Mar 2024 04:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:26:17.605819
- Title: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models
- Title(参考訳): 埋め込みを超えて - マルチモーダルモデルにおけるビジュアルテーブルの約束
- Authors: Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang,
- Abstract要約: 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。
近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。
本稿では,MLLM に適した新しい視覚表現である Visual Table を提案する。シーン記述と,カテゴリ,属性,知識をインスタンスレベルで包含する複数のオブジェクト中心記述からなる,全体的視覚シーンの階層的なテキスト記述を提供する。
- 参考スコア(独自算出の注目度): 38.558250602212425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual representation learning has been a cornerstone in computer vision, evolving from supervised learning with human-annotated labels to aligning image-text pairs from the Internet. Despite recent advancements in multi-modal large language models (MLLMs), the visual representations they rely on, such as CLIP embeddings, often lack access to external world knowledge critical for real-world visual reasoning. In this work, we propose Visual Table, a novel visual representation tailored for MLLMs. It provides hierarchical text descriptions of holistic visual scenes, consisting of a scene description and multiple object-centric descriptions that encompass categories, attributes, and knowledge at instance level. We further develop a scalable generator for visual table generation and train it on small-scale annotations from GPT4V. Extensive evaluations demonstrate that, with generated visual tables as additional visual representations, our model can consistently outperform the state-of-the-art (SOTA) MLLMs across diverse benchmarks. When visual tables serve as standalone visual representations, our model can closely match or even beat the SOTA MLLMs that are built on CLIP visual embeddings. Our code is available at https://github.com/LaVi-Lab/Visual-Table.
- Abstract(参考訳): 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。
近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。
本研究では,MLLMに適した新しい視覚表現であるビジュアルテーブルを提案する。
全体的視覚シーンの階層的なテキスト記述を提供し、シーン記述と、インスタンスレベルでのカテゴリ、属性、知識を含む複数のオブジェクト中心の記述で構成されている。
さらに,視覚テーブル生成のための拡張性のあるジェネレータを開発し,GPT4Vから小規模アノテーションで学習する。
広汎な評価により、生成した視覚テーブルを視覚表現として使用することで、我々のモデルは様々なベンチマークで常に最先端(SOTA)MLLMよりも優れた性能を発揮することが示される。
ビジュアルテーブルがスタンドアロンの視覚表現として機能する場合、私たちのモデルはCLIPビジュアル埋め込み上に構築されたSOTA MLLMと密にマッチしたり、打ち負かしたりできます。
私たちのコードはhttps://github.com/LaVi-Lab/Visual-Table.comで利用可能です。
関連論文リスト
- List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (2024-04-25T07:29:17Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。