論文の概要: VD-BERT: A Unified Vision and Dialog Transformer with BERT
- arxiv url: http://arxiv.org/abs/2004.13278v3
- Date: Mon, 2 Nov 2020 09:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:07:15.093537
- Title: VD-BERT: A Unified Vision and Dialog Transformer with BERT
- Title(参考訳): VD-BERT:BERTと統合ビジョン・ダイアログ変換器
- Authors: Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong,
Steven C.H. Hoi
- Abstract要約: VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
- 参考スコア(独自算出の注目度): 161.0016161052714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual dialog is a challenging vision-language task, where a dialog agent
needs to answer a series of questions through reasoning on the image content
and dialog history. Prior work has mostly focused on various attention
mechanisms to model such intricate interactions. By contrast, in this work, we
propose VD-BERT, a simple yet effective framework of unified vision-dialog
Transformer that leverages the pretrained BERT language models for Visual
Dialog tasks. The model is unified in that (1) it captures all the interactions
between the image and the multi-turn dialog using a single-stream Transformer
encoder, and (2) it supports both answer ranking and answer generation
seamlessly through the same architecture. More crucially, we adapt BERT for the
effective fusion of vision and dialog contents via visually grounded training.
Without the need of pretraining on external vision-language data, our model
yields new state of the art, achieving the top position in both single-model
and ensemble settings (74.54 and 75.35 NDCG scores) on the visual dialog
leaderboard. Our code and pretrained models are released at
https://github.com/salesforce/VD-BERT.
- Abstract(参考訳): ビジュアルダイアログは、画像コンテンツとダイアログ履歴の推論を通じて、ダイアログエージェントが一連の質問に答える必要がある、難しい視覚言語タスクである。
先行研究は主に、複雑な相互作用をモデル化するための様々な注意メカニズムに焦点を当ててきた。
対照的に、本研究では、Visual Dialogタスクのための事前訓練されたBERT言語モデルを活用する、統合視覚対話トランスフォーマのシンプルかつ効果的なフレームワークであるVD-BERTを提案する。
このモデルは,(1)単一ストリームトランスフォーマーエンコーダを用いて,画像とマルチターンダイアログ間のすべてのインタラクションをキャプチャし,(2)同じアーキテクチャで応答ランキングと応答生成をシームレスにサポートする。
より重要なことは、視覚的グラウンドトレーニングによって視覚と対話内容の効果的な融合にBERTを適用することである。
外部視覚言語データの事前学習を必要とせず、我々のモデルは、視覚対話リーダーボード上のシングルモデルとアンサンブル設定(74.54と75.35のNDCGスコア)の両方において、最高の位置を達成し、新たな技術状態を得る。
私たちのコードとトレーニング済みモデルはhttps://github.com/salesforce/vd-bertでリリースしています。
関連論文リスト
- Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - VU-BERT: A Unified framework for Visual Dialog [34.4815433301286]
本稿では,VU-BERTという画像テキスト共同埋め込みのための統合フレームワークを提案し,視覚対話タスクに視覚埋め込みを実現するためにパッチプロジェクションを適用した。
このモデルは、マスク付き言語モデリングと次の発話検索という2つのタスクで訓練されている。
論文 参考訳(メタデータ) (2022-02-22T10:20:14Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。