論文の概要: The Dialog Must Go On: Improving Visual Dialog via Generative
Self-Training
- arxiv url: http://arxiv.org/abs/2205.12502v1
- Date: Wed, 25 May 2022 05:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 15:52:31.001934
- Title: The Dialog Must Go On: Improving Visual Dialog via Generative
Self-Training
- Title(参考訳): ダイアログが続く: 生成的自己学習によるビジュアルダイアログの改善
- Authors: Gi-Cheon Kang, Sungdong Kim, Jin-Hwa Kim, Donghyun Kwak, Byoung-Tak
Zhang
- Abstract要約: Generative Self-Training (GST) は、視覚的な対話のための半教師付き学習手法である。
GSTは、Web上のラベルなし画像に関する合成ダイアログを生成する。
GSTはトレーニングデータの量をVisDialの桁に拡大する。
- 参考スコア(独自算出の注目度): 26.92268637926518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual dialog (VisDial) is a task of answering a sequence of questions
grounded in an image, using the dialog history as context. Prior work has
trained the dialog agents solely on VisDial data via supervised learning or
leveraged pre-training on related vision-and-language datasets. This paper
presents a semi-supervised learning approach for visually-grounded dialog,
called Generative Self-Training (GST), to leverage unlabeled images on the Web.
Specifically, GST first retrieves in-domain images through out-of-distribution
detection and generates synthetic dialogs regarding the images via multimodal
conditional text generation. GST then trains a dialog agent on the synthetic
and the original VisDial data. As a result, GST scales the amount of training
data up to an order of magnitude that of VisDial (1.2M to 12.9M QA data). For
robust training of the generated dialogs, we also propose perplexity-based data
selection and multimodal consistency regularization. Evaluation on VisDial v1.0
and v0.9 datasets shows that GST achieves new state-of-the-art results on both
datasets. We further observe strong performance gains in the low-data regime
(up to 9.35 absolute points on NDCG).
- Abstract(参考訳): ヴィジュアルダイアログ(ヴィジュアルダイアログ)は、ダイアログ履歴をコンテキストとして、画像に基礎を置く一連の質問に答えるタスクである。
以前の作業では、教師付き学習または関連するビジョンと言語データセットの事前トレーニングを通じて、VisDialデータのみに基づくダイアログエージェントをトレーニングした。
本稿では,GST(Generative Self-Training)と呼ばれる,Web上の未表示画像を活用するための半教師付き学習手法を提案する。
具体的には、gstはまず分散検出によりドメイン内イメージを検索し、マルチモーダル条件付きテキスト生成により画像に関する合成ダイアログを生成する。
GSTは、合成データと元のVisDialデータにダイアログエージェントをトレーニングする。
その結果、GSTはトレーニングデータの量をVisDial(1.2Mから12.9M QAデータ)の桁に拡大する。
生成したダイアログの堅牢なトレーニングには、パープレキシティに基づくデータ選択とマルチモーダル整合正則化も提案する。
VisDial v1.0とv0.9データセットの評価は、GSTが両方のデータセットで新たな最先端結果を達成することを示している。
さらに、低データ体制(NDCGの9.35絶対点まで)における強い性能向上を観測する。
関連論文リスト
- Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations [3.784841749866846]
MDST(Multi-round Dialogue State Tracking Model)を導入する。
MDSTは、内的対話状態表現を視覚言語表現の2-タプルとして定義し、各ラウンドの対話履歴をキャプチャする。
VisDial v1.0データセットの実験結果は、MDSTが生成環境において新しい最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-13T08:36:15Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Enhancing Dialogue State Tracking Models through LLM-backed User-Agents Simulation [12.93942316816741]
GPT-4はユーザとエージェントのインタラクションをシミュレートするために使用され、DSTラベルと数千の注釈付き対話を生成する。
生成されたデータとDST予測のための実データとに基づいて、LLaMA2の2段階微調整を行う。
我々のアプローチは、現実世界のシナリオにおける動的な要求に適応し、新しいドメインでの対話を迅速に生成することもできます。
論文 参考訳(メタデータ) (2024-05-17T07:00:05Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。