論文の概要: Global and Local Semantic Completion Learning for Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2306.07096v2
- Date: Wed, 6 Dec 2023 03:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:48:59.104746
- Title: Global and Local Semantic Completion Learning for Vision-Language
Pre-training
- Title(参考訳): 視覚言語事前学習のためのグローバル・ローカルセマンティクス補完学習
- Authors: Rong-Cheng Tu, Yatai Ji, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe
Zhao, Hongfa Wang, Yujiu Yang, and Wei Liu
- Abstract要約: クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
- 参考スコア(独自算出の注目度): 34.740507502215536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment plays a crucial role in vision-language pre-training
(VLP) models, enabling them to capture meaningful associations across different
modalities. For this purpose, numerous masked modeling tasks have been proposed
for VLP to further promote cross-modal interactions. The core idea of previous
masked modeling tasks is to focus on reconstructing the masked tokens based on
visible context for learning local-local alignment. However, most of them pay
little attention to the global semantic features generated for the masked data,
resulting in a limited cross-modal alignment ability of global representations
to local features of the other modality. Therefore, in this paper, we propose a
novel Global and Local Semantic Completion Learning (GLSCL) task to facilitate
global-local alignment and local-local alignment simultaneously. Specifically,
the GLSCL task complements the missing semantics of masked data and recovers
global and local features by cross-modal interactions. Our GLSCL consists of
masked global semantic completion (MGSC) and masked local token completion
(MLTC). MGSC promotes learning more representative global features, which have
a great impact on the performance of downstream tasks, while MLTC reconstructs
modal-fusion local tokens, further enhancing accurate comprehension of
multimodal data. To evaluate the proposed approaches on cross-modal alignment,
we develop a validation benchmark called ALIGN-BENCH. Moreover, we present a
flexible vision encoder, enabling our model to simultaneously perform
image-text and video-text multimodal tasks. Experimental results show that our
proposed method obtains state-of-the-art performance on various vision-language
benchmarks, such as visual question answering, image-text retrieval, and
video-text retrieval.
- Abstract(参考訳): クロスモーダルアライメントは視覚言語事前学習(VLP)モデルにおいて重要な役割を担い、異なるモダリティ間で有意義な関連を捉えることができる。
この目的のために、VLPはモーダル間相互作用をさらに促進するために多くのマスク付きモデリングタスクが提案されている。
以前のマスクモデリングタスクの核となるアイデアは、ローカル-ローカルアライメントを学ぶために、可視化されたコンテキストに基づいてマスクトークンを再構築することである。
しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、その結果、他のモダリティの局所的な特徴に対するグローバル表現のクロスモーダルアライメント能力が制限された。
そこで本稿では,グローバルなアライメントとローカルなアライメントを同時に実現するための,グローバルおよびローカルなセマンティックコンプリート学習(GLSCL)タスクを提案する。
特に、glsclタスクはマスクデータの欠落したセマンティクスを補完し、クロスモーダルインタラクションによってグローバルおよびローカルな特徴を回復する。
GLSCLは,マスク付きグローバルセマンティックコンプリート(MGSC)とマスク付きローカルトークンコンプリート(MLTC)から構成される。
MGSCは、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバルな特徴の学習を促進し、MLTCは、モーダルフュージョンローカルトークンを再構成し、マルチモーダルデータの正確な理解をさらに強化する。
クロスモーダルアライメントにおける提案手法を評価するために,aligned-bench と呼ばれる検証ベンチマークを開発した。
さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。
実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Probing Multimodal Large Language Models for Global and Local Semantic
Representation [60.67306625022419]
本研究では,マルチモーダル大言語モデル (MLLM) が完全な画像情報を真に理解しているかどうかを考察する。
モデルの中間層は、よりグローバルな意味情報をエンコードすることができ、その表現は視覚言語によるエンタテインメントタスクでより良く機能する。
そして、最上位層が過度にローカル情報にフォーカスする可能性があるという結論を導き、グローバル情報をエンコードする能力は低下する。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Towards More Unified In-context Visual Understanding [77.03395229184238]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [18.100947750831885]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。