論文の概要: Cross-stitched Multi-modal Encoders
- arxiv url: http://arxiv.org/abs/2204.09227v1
- Date: Wed, 20 Apr 2022 05:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:12:27.106366
- Title: Cross-stitched Multi-modal Encoders
- Title(参考訳): クロススティッチ型マルチモーダルエンコーダ
- Authors: Karan Singla, Daniel Pressel, Ryan Price, Bhargav Srinivas Chinnari,
Yeon-Jun Kim, Srinivas Bangalore
- Abstract要約: マルチヘッド・クロスモーダル・アテンションを用いた事前学習音声とテキストエンコーダを組み合わせる。
結果として得られるアーキテクチャは、連続的なトークンレベルの分類や発話レベルの予測に使用することができる。
私たちのモデルアーキテクチャはコンパクトでリソース効率が良く、単一のコンシューマGPUカードでトレーニングすることができます。
- 参考スコア(独自算出の注目度): 17.387919594858463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a novel architecture for multi-modal speech and
text input. We combine pretrained speech and text encoders using multi-headed
cross-modal attention and jointly fine-tune on the target problem. The
resultant architecture can be used for continuous token-level classification or
utterance-level prediction acting on simultaneous text and speech. The
resultant encoder efficiently captures both acoustic-prosodic and lexical
information. We compare the benefits of multi-headed attention-based fusion for
multi-modal utterance-level classification against a simple concatenation of
pre-pooled, modality-specific representations. Our model architecture is
compact, resource efficient, and can be trained on a single consumer GPU card.
- Abstract(参考訳): 本稿では,マルチモーダル音声とテキスト入力のための新しいアーキテクチャを提案する。
マルチヘッドクロスモーダルアテンションを用いた事前学習音声とテキストエンコーダを併用し,目標問題に対して協調微調整を行う。
結果のアーキテクチャは、連続トークンレベルの分類や、同時テキストと音声に作用する発話レベルの予測に使用できる。
結果エンコーダは音響韻律情報と語彙情報の両方を効率よくキャプチャする。
マルチモーダル発話レベル分類におけるマルチヘッドアテンションベース融合の利点を,プレプール,モダリティ特化表現の単純な結合と比較した。
私たちのモデルアーキテクチャはコンパクトでリソース効率が高く、単一のコンシューマGPUカードでトレーニングすることができます。
関連論文リスト
- Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities [6.9522425458326635]
独立に訓練された単調デコーダから多モード生成モデルを柔軟に構成するマルチトワーデコーダアーキテクチャを提案する。
提案アーキテクチャは,テキスト音声データに制限のあるシナリオにおいて,非常に競争力のある性能を示す。
出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T00:23:55Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - A novel multimodal dynamic fusion network for disfluency detection in
spoken utterances [43.79216238760557]
個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。
我々のアーキテクチャは、既存のテキストエンコーダに最小限のパラメータを追加するマルチモーダルダイナミックフュージョンネットワークを活用している。
提案手法は, 広範に使われている英語スイッチボードを用いて, ディフルエンシ検出のための最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-27T01:54:22Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。