Fugu-MT 論文翻訳(概要): Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models

論文の概要: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models

arxiv url: http://arxiv.org/abs/2403.18252v1
Date: Wed, 27 Mar 2024 04:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 18:26:17.605819
Title: Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models
Title（参考訳）: 埋め込みを超えて - マルチモーダルモデルにおけるビジュアルテーブルの約束
Authors: Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang,
Abstract要約: 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。本稿では,MLLM に適した新しい視覚表現である Visual Table を提案する。シーン記述と,カテゴリ,属性,知識をインスタンスレベルで包含する複数のオブジェクト中心記述からなる,全体的視覚シーンの階層的なテキスト記述を提供する。
参考スコア（独自算出の注目度）: 38.558250602212425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual representation learning has been a cornerstone in computer vision, evolving from supervised learning with human-annotated labels to aligning image-text pairs from the Internet. Despite recent advancements in multi-modal large language models (MLLMs), the visual representations they rely on, such as CLIP embeddings, often lack access to external world knowledge critical for real-world visual reasoning. In this work, we propose Visual Table, a novel visual representation tailored for MLLMs. It provides hierarchical text descriptions of holistic visual scenes, consisting of a scene description and multiple object-centric descriptions that encompass categories, attributes, and knowledge at instance level. We further develop a scalable generator for visual table generation and train it on small-scale annotations from GPT4V. Extensive evaluations demonstrate that, with generated visual tables as additional visual representations, our model can consistently outperform the state-of-the-art (SOTA) MLLMs across diverse benchmarks. When visual tables serve as standalone visual representations, our model can closely match or even beat the SOTA MLLMs that are built on CLIP visual embeddings. Our code is available at https://github.com/LaVi-Lab/Visual-Table.
Abstract（参考訳）: 視覚表現学習はコンピュータビジョンの基盤であり、人間の注釈付きラベルによる教師付き学習から、インターネットからのイメージテキストペアの整列へと進化してきた。近年のMLLM(Multi-modal large language model)の発展にもかかわらず、CLIP埋め込みのような視覚的な表現は、現実世界の視覚的推論に不可欠な外部世界の知識へのアクセスを欠いていることが多い。本研究では,MLLMに適した新しい視覚表現であるビジュアルテーブルを提案する。全体的視覚シーンの階層的なテキスト記述を提供し、シーン記述と、インスタンスレベルでのカテゴリ、属性、知識を含む複数のオブジェクト中心の記述で構成されている。さらに,視覚テーブル生成のための拡張性のあるジェネレータを開発し,GPT4Vから小規模アノテーションで学習する。広汎な評価により、生成した視覚テーブルを視覚表現として使用することで、我々のモデルは様々なベンチマークで常に最先端(SOTA)MLLMよりも優れた性能を発揮することが示される。ビジュアルテーブルがスタンドアロンの視覚表現として機能する場合、私たちのモデルはCLIPビジュアル埋め込み上に構築されたSOTA MLLMと密にマッチしたり、打ち負かしたりできます。私たちのコードはhttps://github.com/LaVi-Lab/Visual-Table.comで利用可能です。

関連論文リスト

OntView: What you See is What you Meant [40.572754656757475]
OntViewは、ユーザフレンドリな視覚化を通じて、概念とその定義を直感的に表現する。 OntViewはコミュニティ全体のオープンソースライセンスとともにリリースされた。
論文参考訳（メタデータ） (2025-07-18T09:06:49Z)
Capturing Visualization Design Rationale [5.051297047598238]
自然言語による可視化設計の合理性を探るための新しいデータセットと方法論を提案する。データビジュアライゼーションコースの一環として、学生が作成した視覚化ノートをリライトする。また、大きな言語モデル(LLM)を用いて、ノートブックのナラティブや調音文から質問-回答-合理3つを生成・分類する。
論文参考訳（メタデータ） (2025-06-19T19:52:53Z)
Visual Adaptive Prompting for Compositional Zero-Shot Learning [0.0]
VLM(Vision-Language Models)は、視覚およびテキストデータの共同表現を学習する際、印象的な能力を示す。 CZSLは、トレーニング中に明示的に遭遇しなかった属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
論文参考訳（メタデータ） (2025-02-27T17:17:43Z)
UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。 UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文参考訳（メタデータ） (2024-09-20T01:26:32Z)
ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文参考訳（メタデータ） (2023-11-22T09:23:34Z)
ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文参考訳（メタデータ） (2023-05-23T02:08:56Z)
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文参考訳（メタデータ） (2022-12-20T14:36:45Z)
Learning Structured Representations of Visual Scenes [1.6244541005112747]
本研究では,機械が個々の画像や映像の内容と視覚的関係を構造化表現として記述する方法について検討する。具体的には,静的画像設定と映像設定の両方において,視覚シーンの構造的表現を効果的に構築し,学習する方法について検討する。
論文参考訳（メタデータ） (2022-07-09T05:40:08Z)
Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-28T14:27:38Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。 PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文参考訳（メタデータ） (2021-12-09T18:59:34Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。