論文の概要: MIVC: Multiple Instance Visual Component for Visual-Language Models
- arxiv url: http://arxiv.org/abs/2312.17109v1
- Date: Thu, 28 Dec 2023 16:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:35:27.259566
- Title: MIVC: Multiple Instance Visual Component for Visual-Language Models
- Title(参考訳): MIVC:ビジュアル言語モデルのための複数のインスタンスビジュアルコンポーネント
- Authors: Wenyi Wu, Qi Li, Wenliang Zhong, Junzhou Huang
- Abstract要約: 様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
- 参考スコア(独自算出の注目度): 46.869139462026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have been widely explored across a wide range of tasks
and achieve satisfactory performance. However, it's under-explored how to
consolidate entity understanding through a varying number of images and to
align it with the pre-trained language models for generative tasks. In this
paper, we propose MIVC, a general multiple instance visual component to bridge
the gap between various image inputs with off-the-shelf vision-language models
by aggregating visual representations in a permutation-invariant fashion
through a neural network. We show that MIVC could be plugged into the
visual-language models to improve the model performance consistently on visual
question answering, classification and captioning tasks on a public available
e-commerce dataset with multiple images per product. Furthermore, we show that
the component provides insight into the contribution of each image to the
downstream tasks.
- Abstract(参考訳): ビジョン言語モデルは幅広いタスクにまたがって広く研究され、十分な性能を達成している。
しかし、さまざまな画像を通してエンティティ理解を統一し、生成タスクのために事前訓練された言語モデルと整合させる方法については、未検討である。
本稿では,様々な画像入力とオフザシェルフ視覚言語モデルとのギャップを,ニューラルネットワークを介して置換不変の方法で集約することで埋める,汎用的なマルチインスタンスビジュアルコンポーネントMIVCを提案する。
我々は,mivcをビジュアル言語モデルにプラグインすることで,製品毎に複数のイメージを持つ公開電子商取引データセット上で,視覚的質問応答,分類,キャプションタスクを一貫して改善できることを示す。
さらに,各画像の下流タスクへの寄与に関する洞察をコンポーネントが提供することを示す。
関連論文リスト
- OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects [2.850097504458451]
本稿では,新たに設計されたビジュアルエンコーダを用いて,RGB画像の隠蔽対象を理解する新しいマルチモーダルモデルを提案する。
また、大規模視覚言語ペアデータセットを導入し、大規模視覚言語マルチモーダルモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-02T06:14:49Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。