論文の概要: Multi-modal embeddings using multi-task learning for emotion recognition
- arxiv url: http://arxiv.org/abs/2009.05019v1
- Date: Thu, 10 Sep 2020 17:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:42:36.438644
- Title: Multi-modal embeddings using multi-task learning for emotion recognition
- Title(参考訳): マルチタスク学習を用いたマルチモーダル埋め込みによる感情認識
- Authors: Aparna Khare, Srinivas Parthasarathy, Shiva Sundaram
- Abstract要約: word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャまで、作業を拡張します。
- 参考スコア(独自算出の注目度): 20.973999078271483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General embeddings like word2vec, GloVe and ELMo have shown a lot of success
in natural language tasks. The embeddings are typically extracted from models
that are built on general tasks such as skip-gram models and natural language
generation. In this paper, we extend the work from natural language
understanding to multi-modal architectures that use audio, visual and textual
information for machine learning tasks. The embeddings in our network are
extracted using the encoder of a transformer model trained using multi-task
training. We use person identification and automatic speech recognition as the
tasks in our embedding generation framework. We tune and evaluate the
embeddings on the downstream task of emotion recognition and demonstrate that
on the CMU-MOSEI dataset, the embeddings can be used to improve over previous
state of the art results.
- Abstract(参考訳): word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
埋め込みは通常、スキップグラムモデルや自然言語生成といった一般的なタスクに基づいて構築されたモデルから抽出される。
本稿では、自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャへその仕事を拡張する。
マルチタスクトレーニングを用いてトレーニングしたトランスモデルのエンコーダを用いて,ネットワーク内の埋め込みを抽出する。
組込み生成フレームワークでは,個人識別と自動音声認識をタスクとして使用する。
感情認識の下流タスクにおける埋め込みをチューニングし,評価し,cmu-moseiデータセット上では,その埋め込みが過去の成果よりも向上することを示す。
関連論文リスト
- SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Multimodal Representation Learning With Text and Images [2.998895355715139]
本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
論文 参考訳(メタデータ) (2022-04-30T03:25:01Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Self-Supervised learning with cross-modal transformers for emotion
recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文 参考訳(メタデータ) (2020-11-20T21:38:34Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。