論文の概要: DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style
Word Generator
- arxiv url: http://arxiv.org/abs/2004.08299v1
- Date: Wed, 1 Apr 2020 07:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:50:57.495489
- Title: DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style
Word Generator
- Title(参考訳): DSTC8-AVSD:検索型ワードジェネレータを用いたマルチモーダルセマンティックトランスネットワーク
- Authors: Hwanhee Lee, Seunghyun Yoon, Franck Dernoncourt, Doo Soon Kim, Trung
Bui and Kyomin Jung
- Abstract要約: オーディオ・ビジュアル・シーン・アウェア・ダイアログ(AVSD)は、あるシーン、ビデオ、オーディオ、ダイアログの前のターン履歴で質問に対する応答を生成するタスクである。
このタスクの既存のシステムは、エンコーダ-デコーダフレームワークを備えたトランスフォーマーまたはリカレントニューラルネットワークベースのアーキテクチャを採用している。
本稿では,マルチモーダル・セマンティック・トランスフォーマー・ネットワークを提案し,単語の埋め込みを問合せすることで単語を生成する単語埋め込み層を備えたトランスフォーマー・アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 61.70748716353692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Visual Scene-aware Dialog (AVSD) is the task of generating a response
for a question with a given scene, video, audio, and the history of previous
turns in the dialog. Existing systems for this task employ the transformers or
recurrent neural network-based architecture with the encoder-decoder framework.
Even though these techniques show superior performance for this task, they have
significant limitations: the model easily overfits only to memorize the
grammatical patterns; the model follows the prior distribution of the
vocabularies in a dataset. To alleviate the problems, we propose a Multimodal
Semantic Transformer Network. It employs a transformer-based architecture with
an attention-based word embedding layer that generates words by querying word
embeddings. With this design, our model keeps considering the meaning of the
words at the generation stage. The empirical results demonstrate the
superiority of our proposed model that outperforms most of the previous works
for the AVSD task.
- Abstract(参考訳): オーディオ・ビジュアル・シーン・アウェア・ダイアログ(AVSD)は、あるシーン、ビデオ、オーディオ、ダイアログの前のターン履歴で質問に対する応答を生成するタスクである。
このタスクの既存のシステムは、エンコーダ-デコーダフレームワークでトランスフォーマーまたはリカレントニューラルネットワークベースのアーキテクチャを使用している。
これらのテクニックは、このタスクに優れたパフォーマンスを示すが、大きな制限がある。モデルは、文法パターンを記憶するためにのみ、容易に過剰に適合する。
この問題を解決するために,マルチモーダル意味変換ネットワークを提案する。
トランスフォーマーベースのアーキテクチャとアテンションベースの単語埋め込み層を採用し、単語埋め込みをクエリすることで単語を生成する。
この設計により、我々のモデルは生成段階における単語の意味を考慮し続けている。
実験結果から,AVSDタスクにおける従来の作業の多くを上回り,提案モデルが優れていることを示す。
関連論文リスト
- VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Hierarchical Transformer for Task Oriented Dialog Systems [11.743662338418867]
HREDやHIBERTのようなモデルを含む任意の階層的エンコーダに、特別なデザインのアテンションマスクや位置エンコーダを用いて標準トランスフォーマーをどのように変形させるかを示す。
タスク指向対話システムのためのトランスフォーマーベースモデルにおいて,階層階層的階層構造がコンテキストの自然言語理解に有効であることを実証する。
論文 参考訳(メタデータ) (2020-10-24T10:08:52Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。