論文の概要: Neuro-Symbolic Visual Dialog
- arxiv url: http://arxiv.org/abs/2208.10353v1
- Date: Mon, 22 Aug 2022 14:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:42:09.999429
- Title: Neuro-Symbolic Visual Dialog
- Title(参考訳): ニューロシンボリック視覚対話
- Authors: Adnen Abdessaied, Mihai B\^ace, Andreas Bulling
- Abstract要約: ニューロ・シンボリック・ビジュアル・ダイアログは、深層学習と記号的プログラム実行を組み合わせた視覚的推論のための最初の方法である。
NSVDは、ビジュアルダイアログに固有の2つの主要な課題において、既存の純粋接続性手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 12.666688339064692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Neuro-Symbolic Visual Dialog (NSVD) -the first method to combine
deep learning and symbolic program execution for multi-round visually-grounded
reasoning. NSVD significantly outperforms existing purely-connectionist methods
on two key challenges inherent to visual dialog: long-distance co-reference
resolution as well as vanishing question-answering performance. We demonstrate
the latter by proposing a more realistic and stricter evaluation scheme in
which we use predicted answers for the full dialog history when calculating
accuracy. We describe two variants of our model and show that using this new
scheme, our best model achieves an accuracy of 99.72% on CLEVR-Dialog -a
relative improvement of more than 10% over the state of the art while only
requiring a fraction of training data. Moreover, we demonstrate that our
neuro-symbolic models have a higher mean first failure round, are more robust
against incomplete dialog histories, and generalise better not only to dialogs
that are up to three times longer than those seen during training but also to
unseen question types and scenes.
- Abstract(参考訳): 本稿では,多面的視覚的な推論のための深層学習とシンボリックプログラム実行を組み合わせた最初の手法であるニューロシンボリックビジュアルダイアログ(nsvd)を提案する。
NSVDは、視覚的ダイアログに固有の2つの重要な課題、長距離共参照解決と質問応答性能において、既存の純粋接続法よりも大幅に優れている。
我々は,より現実的で厳密な評価手法を提案し,精度を計算する際に,全対話履歴の予測結果を使用する。
そこで本研究では,本モデルの2つの変種について述べるとともに,この新手法により,clevr-dialogの精度が99.72%向上したことを示す。
さらに,我々のニューロシンボリックモデルは,平均的第1次障害ラウンドが高く,不完全なダイアログ履歴に対して頑健であり,訓練中のダイアログの最大3倍の長さのダイアログに留まらず,質問タイプやシーンを認識できない方がよいことを示した。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Multi-Stage Coarse-to-Fine Contrastive Learning for Conversation Intent
Induction [34.25242109800481]
本稿では,第11回対話システム技術チャレンジ(DSTC11)におけるタスク指向対話における会話からのインテントインジェクションの追跡方法について述べる。
意図的クラスタリングの本質は、異なる対話発話の表現を区別することにある。
DSTC11の評価結果では,このトラックの2つのサブタスクのうちの1位が提案システムである。
論文 参考訳(メタデータ) (2023-03-09T04:51:27Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。