論文の概要: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability
- arxiv url: http://arxiv.org/abs/2311.12327v1
- Date: Tue, 21 Nov 2023 03:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:07:07.027127
- Title: ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability
- Title(参考訳): ViLaM:視覚的グラウンディングと一般化機能を備えた視覚言語モデル
- Authors: Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang
- Abstract要約: ViLaMは、大きな言語モデルに述語された命令チューニングを統合する統合されたビジョンランゲージトランスフォーマーモデルである。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、調整する。
医療分野におけるViLaMの今後の応用の可能性を示すものとして,このモデルの目覚ましいゼロショット学習能力を見てきた。
- 参考スコア(独自算出の注目度): 42.75233695675096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have revolutionized human-computer interaction and
shown significant progress in multi-modal tasks. However, applying these models
to complex visual tasks like medical image analysis remains challenging. In
this study, we propose ViLaM, a unified Vision-Language transformer model that
integrates instruction tuning predicated on a large language model. This
approach enables us to optimally utilize the knowledge and reasoning capacities
of large pre-trained language models for an array of tasks encompassing both
language and vision. We employ frozen pre-trained encoders to encode and align
both image and text features, enabling ViLaM to handle a variety of visual
tasks following textual instructions. Besides, we've designed cycle training
for referring expressions to address the need for high-quality, paired
referring expression datasets for training large models in terms of both
quantity and quality. We evaluated ViLaM's exceptional performance on public
general datasets and further confirmed its generalizability on medical
datasets. Importantly, we've observed the model's impressive zero-shot learning
ability, indicating the potential future application of ViLaM in the medical
field.
- Abstract(参考訳): 視覚言語モデルは人間とコンピュータの相互作用に革命をもたらし、マルチモーダルタスクにおいて大きな進歩を見せている。
しかし、これらのモデルを医療画像分析のような複雑な視覚タスクに適用することは依然として困難である。
本研究では,大規模な言語モデルに基づく指導指導を統合した視覚言語変換モデルViLaMを提案する。
提案手法は,大規模事前学習言語モデルの知識と推論能力を,言語と視覚の両方を包含するタスクの配列に最適に活用することを可能にする。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、アライメントし、ViLaMがテキスト命令に従って様々な視覚タスクを処理できるようにする。
さらに、我々は、量と品質の両方の観点から大きなモデルをトレーニングするための高品質なペア付き参照式データセットの必要性に対応するために、表現を参照するためのサイクルトレーニングを設計しました。
一般データセットにおけるvilamの優れた性能を評価し,医療データセットの汎用性をさらに確認した。
重要なことに、我々はこのモデルの印象的なゼロショット学習能力を観察し、医療分野におけるViLaMの潜在的な応用を示唆している。
関連論文リスト
- Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。