論文の概要: On the Use of Modality-Specific Large-Scale Pre-Trained Encoders for
Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2210.15937v1
- Date: Fri, 28 Oct 2022 06:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:59:19.235227
- Title: On the Use of Modality-Specific Large-Scale Pre-Trained Encoders for
Multimodal Sentiment Analysis
- Title(参考訳): モダリティに特有な大規模事前学習エンコーダを用いたマルチモーダル感情分析
- Authors: Atsushi Ando, Ryo Masumura, Akihiko Takashima, Satoshi Suzuki, Naoki
Makishima, Keita Suzuki, Takafumi Moriya, Takanori Ashihara, Hiroshi Sato
- Abstract要約: ドメイン固有の事前訓練エンコーダを持つメソッドは、非モーダルおよびマルチモーダルの両方のシナリオで従来の機能を持つ方法よりも優れたパフォーマンスが得られる。
また、エンコーダの中間層の出力を出力層の出力よりも使用した方がよいことも分かりました。
- 参考スコア(独自算出の注目度): 27.497457891521538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the effectiveness and implementation of
modality-specific large-scale pre-trained encoders for multimodal sentiment
analysis~(MSA). Although the effectiveness of pre-trained encoders in various
fields has been reported, conventional MSA methods employ them for only
linguistic modality, and their application has not been investigated. This
paper compares the features yielded by large-scale pre-trained encoders with
conventional heuristic features. One each of the largest pre-trained encoders
publicly available for each modality are used; CLIP-ViT, WavLM, and BERT for
visual, acoustic, and linguistic modalities, respectively. Experiments on two
datasets reveal that methods with domain-specific pre-trained encoders attain
better performance than those with conventional features in both unimodal and
multimodal scenarios. We also find it better to use the outputs of the
intermediate layers of the encoders than those of the output layer. The codes
are available at https://github.com/ando-hub/MSA_Pretrain.
- Abstract(参考訳): 本稿では,マルチモーダル感情分析のためのモダリティ固有の大規模事前学習エンコーダの有効性と実装について検討する。
各種分野における事前学習エンコーダの有効性は報告されているが,従来のMSA法では言語的モダリティのみに使用されており,その応用は検討されていない。
本稿では,大規模な事前学習エンコーダと従来のヒューリスティックな特徴を比較する。
各モダリティのために公開されている最大のプリトレーニングエンコーダの1つ、クリップvit、wavlm、bertは視覚的、音響的、言語的モダリティのために使用される。
2つのデータセットの実験により、ドメイン固有の事前訓練エンコーダを持つメソッドは、単調なシナリオとマルチモーダルなシナリオの両方で従来の機能を持つ方法よりも優れたパフォーマンスが得られることが明らかになった。
また、エンコーダの中間層の出力を出力層の出力よりも使用した方がよいことも分かりました。
コードはhttps://github.com/ando-hub/msa_pretrainで入手できる。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - An Exploration of Encoder-Decoder Approaches to Multi-Label
Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。
その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文 参考訳(メタデータ) (2023-05-09T17:13:53Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - A Comparative Study of Pre-trained Encoders for Low-Resource Named
Entity Recognition [10.0731894715001]
我々は、エンコーダ評価フレームワークを導入し、それを用いて、低リソースNERのタスクにおける最先端の事前訓練された表現の性能を比較する。
我々は、様々な戦略、モデルアーキテクチャ、中間タスクの微調整、コントラスト学習で事前訓練された幅広いエンコーダを分析する。
論文 参考訳(メタデータ) (2022-04-11T09:48:26Z) - Variational Autoencoders for Studying the Manifold of Precoding Matrices
with High Spectral Efficiency [47.187609203210705]
スペクトル効率(SE)の高い事前符号化行列を見つけるために、変分オートエンコーダを用いる方法を検討する。
私たちの目標は、最小品質の劣化を伴う、より時間を要するアルゴリズムを作ることです。
論文 参考訳(メタデータ) (2021-11-23T11:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。