論文の概要: UTC: A Unified Transformer with Inter-Task Contrastive Learning for
Visual Dialog
- arxiv url: http://arxiv.org/abs/2205.00423v1
- Date: Sun, 1 May 2022 08:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:18:29.900123
- Title: UTC: A Unified Transformer with Inter-Task Contrastive Learning for
Visual Dialog
- Title(参考訳): UTC:視覚対話のためのタスク間コントラスト学習を備えた統一変換器
- Authors: Cheng Chen, Yudong Zhu, Zhenshan Tan, Qingrong Cheng, Xin Jiang, Qun
Liu, Xiaodong Gu
- Abstract要約: 本稿では,視覚対話における識別的タスクと生成的タスクを一つのモデルで統一し,促進する,対照的な学習ベースのUTCを提案する。
提案したUTCをVisDial v1.0データセット上で評価し,本手法は識別的タスクと生成的タスクの両方において最先端の処理性能を示す。
- 参考スコア(独自算出の注目度): 30.864390060624213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Dialog aims to answer multi-round, interactive questions based on the
dialog history and image content. Existing methods either consider answer
ranking and generating individually or only weakly capture the relation across
the two tasks implicitly by two separate models. The research on a universal
framework that jointly learns to rank and generate answers in a single model is
seldom explored. In this paper, we propose a contrastive learning-based
framework UTC to unify and facilitate both discriminative and generative tasks
in visual dialog with a single model. Specifically, considering the inherent
limitation of the previous learning paradigm, we devise two inter-task
contrastive losses i.e., context contrastive loss and answer contrastive loss
to make the discriminative and generative tasks mutually reinforce each other.
These two complementary contrastive losses exploit dialog context and target
answer as anchor points to provide representation learning signals from
different perspectives. We evaluate our proposed UTC on the VisDial v1.0
dataset, where our method outperforms the state-of-the-art on both
discriminative and generative tasks and surpasses previous state-of-the-art
generative methods by more than 2 absolute points on Recall@1.
- Abstract(参考訳): visual dialogは、ダイアログ履歴と画像コンテンツに基づいて、マルチラウンド、インタラクティブな質問に答えることを目的としている。
既存の方法は、解答ランキングを考慮し、個別に生成するか、2つの異なるモデルによって暗黙的に2つのタスク間の関係を弱く捉えるだけである。
一つのモデルでランク付けと解答を共同で学習する普遍的な枠組みの研究はめったに行われない。
本稿では,視覚対話における識別的タスクと生成的タスクの両方を単一モデルで統一し,促進するための比較学習ベースのフレームワークutcを提案する。
具体的には,従来の学習パラダイムの固有の限界を考慮し,コンテクストコントラストロスと回答コントラストロスという2つのタスク間コントラストロスを考案し,識別的タスクと生成的タスクを相互に強化する。
これら2つの補完的コントラスト損失は、異なる視点から表現学習信号を提供するアンカーポイントとしてダイアログコンテキストとターゲット回答を利用する。
提案するutcをvisdial v1.0データセット上で評価し,本手法は判別処理と生成処理の両方において最先端を上回り,recall@1の2以上の絶対点を上回った。
関連論文リスト
- Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。
提案手法は,複数の公開データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:13:27Z) - Two-Level Supervised Contrastive Learning for Response Selection in
Multi-Turn Dialogue [18.668723854662584]
本稿では,教師付きコントラスト損失を用いたコントラスト学習を課題に適用する。
我々は,2段階の教師付きコントラスト学習と呼ばれる,教師付きコントラスト学習の新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-01T23:43:36Z) - Generalizable and Explainable Dialogue Generation via Explicit Action
Learning [33.688270031454095]
条件付き応答生成は、タスク完了と言語品質を最適化するための効果的なアプローチとして機能する。
潜在行動学習は、各発話を潜在表現にマッピングするために導入される。
このアプローチはトレーニングデータに過度に依存する傾向があるため、一般化能力は制限される。
提案手法は、ベンチマークマルチドメインデータセットであるMultiWOZにおいて、潜在アクションベースラインよりも優れている。
論文 参考訳(メタデータ) (2020-10-08T04:37:22Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。