論文の概要: CMSBERT-CLR: Context-driven Modality Shifting BERT with Contrastive
Learning for linguistic, visual, acoustic Representations
- arxiv url: http://arxiv.org/abs/2209.07424v1
- Date: Sun, 21 Aug 2022 08:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-18 17:02:04.695849
- Title: CMSBERT-CLR: Context-driven Modality Shifting BERT with Contrastive
Learning for linguistic, visual, acoustic Representations
- Title(参考訳): CMSBERT-CLR: 言語的,視覚的,音響的表現のためのコントラスト学習を用いたコンテキスト駆動型モダリティシフトBERT
- Authors: Junghun Kim, Jihie Kim
- Abstract要約: 言語・視覚・音響表現のためのコントラスト学習を用いたコンテキスト駆動型モダリティシフトBERT(CMSBERT-CLR)を提案する。
CMSBERT-CLRは、文脈全体の非言語的・言語的な情報を取り入れ、コントラスト学習を通じてより効果的にモダリティを整合させる。
実験では,本手法が最先端の成果をもたらすことを実証した。
- 参考スコア(独自算出の注目度): 0.7081604594416336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has become an increasingly popular research
area as the demand for multimodal online content is growing. For multimodal
sentiment analysis, words can have different meanings depending on the
linguistic context and non-verbal information, so it is crucial to understand
the meaning of the words accordingly. In addition, the word meanings should be
interpreted within the whole utterance context that includes nonverbal
information. In this paper, we present a Context-driven Modality Shifting BERT
with Contrastive Learning for linguistic, visual, acoustic Representations
(CMSBERT-CLR), which incorporates the whole context's non-verbal and verbal
information and aligns modalities more effectively through contrastive
learning. First, we introduce a Context-driven Modality Shifting (CMS) to
incorporate the non-verbal and verbal information within the whole context of
the sentence utterance. Then, for improving the alignment of different
modalities within a common embedding space, we apply contrastive learning.
Furthermore, we use an exponential moving average parameter and label smoothing
as optimization strategies, which can make the convergence of the network more
stable and increase the flexibility of the alignment. In our experiments, we
demonstrate that our approach achieves state-of-the-art results.
- Abstract(参考訳): マルチモーダルなオンラインコンテンツの需要が高まる中、マルチモーダル感情分析は研究分野として人気が高まっている。
マルチモーダル感情分析では、単語は言語的文脈と非言語的情報によって異なる意味を持つので、それに応じて単語の意味を理解することが重要である。
さらに、単語の意味は、非言語情報を含む発話コンテキスト全体の中で解釈されるべきである。
本稿では,言語的,視覚的,音響的表現のためのコントラスト学習(CMSBERT-CLR)を用いたコンテキスト駆動型モダリティシフトBERTを提案する。
まず,文脈駆動型モダリティシフト(CMS)を導入し,非言語的・言語的情報を文発話の全文脈に組み込む。
次に、共通埋め込み空間内の異なるモダリティのアライメントを改善するために、対比学習を適用する。
さらに,指数移動平均パラメータとラベル平滑化を最適化戦略として用いることにより,ネットワークの収束性が向上し,アライメントの柔軟性が向上する。
実験では,本手法が最先端の結果をもたらすことを示す。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition [29.523405624632378]
マルチモーダルな意図認識の課題に対処するために,TCL-MAP(Modality-Aware prompting)を用いたトークンレベルのコントラスト学習手法を提案する。
提案したTCLは,モダリティを意識したプロンプトとグラウンドの真理ラベルに基づいて,拡張サンプルを構築し,NT-Xent損失をラベルトークンに用いた。
本手法は最先端の手法と比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-12-22T13:03:23Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - MCSE: Multimodal Contrastive Learning of Sentence Embeddings [23.630041603311923]
本稿では,視覚情報とテキスト情報の両方をマルチモーダル・コントラッシブ・オブジェクトを通じて活用する文埋め込み学習手法を提案する。
提案手法は,各種データセットと事前学習エンコーダのパフォーマンスを継続的に向上することを示す。
論文 参考訳(メタデータ) (2022-04-22T21:19:24Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。