論文の概要: Global and Local Semantic Completion Learning for Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2306.07096v1
- Date: Mon, 12 Jun 2023 13:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:29:07.360032
- Title: Global and Local Semantic Completion Learning for Vision-Language
Pre-training
- Title(参考訳): 視覚言語事前学習のためのグローバル・ローカルセマンティクス補完学習
- Authors: Rong-Cheng Tu, Yatai Ji, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe
Zhao, Hongfa Wang, Yujiu Yang, and Wei Liu
- Abstract要約: クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
- 参考スコア(独自算出の注目度): 21.650247955669073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment plays a crucial role in vision-language pre-training
(VLP) models, enabling them to capture meaningful associations across different
modalities. For this purpose, inspired by the success of masked language
modeling (MLM) tasks in the NLP pre-training area, numerous masked modeling
tasks have been proposed for VLP to further promote cross-modal interactions.
The core idea of previous masked modeling tasks is to focus on reconstructing
the masked tokens based on visible context for learning local-local alignment,
i.e., associations between image patches and text tokens. However, most of them
pay little attention to the global semantic features generated for the masked
data, resulting in a limited cross-modal alignment ability of global
representations to local features of the other modality. Therefore, in this
paper, we propose a novel Global and Local Semantic Completion Learning (GLSCL)
task to facilitate global-local alignment and local-local alignment
simultaneously. Specifically, the GLSCL task complements the missing semantics
of masked data and recovers global and local features by cross-modal
interactions. Our GLSCL consists of masked global semantic completion (MGSC)
and masked local token completion (MLTC). MGSC promotes learning more
representative global features which have a great impact on the performance of
downstream tasks, and MLTC can further enhance accurate comprehension on
multimodal data. Moreover, we present a flexible vision encoder, enabling our
model to simultaneously perform image-text and video-text multimodal tasks.
Experimental results show that our proposed method obtains state-of-the-art
performance on various vision-language benchmarks, such as visual question
answering, image-text retrieval, and video-text retrieval.
- Abstract(参考訳): クロスモーダルアライメントは視覚言語事前学習(VLP)モデルにおいて重要な役割を担い、異なるモダリティ間で有意義な関連を捉えることができる。
この目的のために、NLP事前学習領域におけるマスメッド言語モデリング(MLM)タスクの成功に触発されて、VLPはクロスモーダル相互作用をさらに促進するために多くのマスメッドモデリングタスクが提案されている。
従来のマスク付きモデリングタスクの中核となる考え方は、局所的なアライメント、すなわち画像パッチとテキストトークンの関係を学習するための可視的コンテキストに基づいてマスク付きトークンを再構築することである。
しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、その結果、他のモダリティの局所的な特徴に対するグローバル表現のクロスモーダルアライメント能力が制限された。
そこで本稿では,グローバルなアライメントとローカルなアライメントを同時に実現するための,グローバルおよびローカルなセマンティックコンプリート学習(GLSCL)タスクを提案する。
特に、glsclタスクはマスクデータの欠落したセマンティクスを補完し、クロスモーダルインタラクションによってグローバルおよびローカルな特徴を回復する。
GLSCLは,マスク付きグローバルセマンティックコンプリート(MGSC)とマスク付きローカルトークンコンプリート(MLTC)から構成される。
MGSCは、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバルな特徴の学習を促進し、MLTCはマルチモーダルデータに対する正確な理解をさらに高めることができる。
さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。
実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。