論文の概要: Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog
- arxiv url: http://arxiv.org/abs/2204.04680v1
- Date: Sun, 10 Apr 2022 13:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:40:40.757226
- Title: Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog
- Title(参考訳): ビジュアルダイアログにおけるマルチストラクチャ・コモンセンス知識を用いた推論
- Authors: Shunyu Zhang, Xiaoze Jiang, Zequn Yang, Tao Wan, Zengchang Qin
- Abstract要約: マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
- 参考スコア(独自算出の注目度): 12.034554338597067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Dialog requires an agent to engage in a conversation with humans
grounded in an image. Many studies on Visual Dialog focus on the understanding
of the dialog history or the content of an image, while a considerable amount
of commonsense-required questions are ignored. Handling these scenarios depends
on logical reasoning that requires commonsense priors. How to capture relevant
commonsense knowledge complementary to the history and the image remains a key
challenge. In this paper, we propose a novel model by Reasoning with
Multi-structure Commonsense Knowledge (RMK). In our model, the external
knowledge is represented with sentence-level facts and graph-level facts, to
properly suit the scenario of the composite of dialog history and image. On top
of these multi-structure representations, our model can capture relevant
knowledge and incorporate them into the vision and semantic features, via
graph-based interaction and transformer-based fusion. Experimental results and
analysis on VisDial v1.0 and VisDialCK datasets show that our proposed model
effectively outperforms comparative methods.
- Abstract(参考訳): 視覚ダイアログは、エージェントが画像に接地した人間と会話することを必要とする。
視覚ダイアログに関する多くの研究は、画像のダイアログ履歴や内容の理解に焦点を合わせているが、多くの共通性が要求される質問は無視されている。
これらのシナリオの処理は、コモンセンス優先を必要とする論理的推論に依存する。
歴史とイメージを補完する関連するコモンセンスの知識をいかに捉えるかは、依然として重要な課題である。
本稿では,多構造コモンセンス知識(rmk)を用いた推論による新しいモデルを提案する。
本モデルでは,外部知識を文レベルの事実とグラフレベルの事実で表現し,対話履歴と画像の組み合わせのシナリオに適切に適合させる。
これらの多構造表現に加えて,本モデルは関連する知識を取り込み,グラフベースインタラクションとトランスフォーマーベースの融合を通じて,ビジョンやセマンティック機能に組み込むことができる。
VisDial v1.0 と VisDialCK データセットの実験結果と解析により,提案モデルが比較手法を効果的に上回ることを示す。
関連論文リスト
- ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning
in Visual Dialogue [17.119682693725718]
視覚とテキストの知識間の相互意味関係を橋渡しする新しい知識ブリッジグラフネットワーク(KBGN)モデルを提案する。
我々のモデルは、最先端の結果で既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-08-11T17:03:06Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。