論文の概要: KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning
in Visual Dialogue
- arxiv url: http://arxiv.org/abs/2008.04858v2
- Date: Fri, 28 Aug 2020 07:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:53:18.309449
- Title: KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning
in Visual Dialogue
- Title(参考訳): KBGN:ビジュアル対話における適応的視覚テキスト推論のための知識ブリッジグラフネットワーク
- Authors: Xiaoze Jiang, Siyi Du, Zengchang Qin, Yajing Sun, Jing Yu
- Abstract要約: 視覚とテキストの知識間の相互意味関係を橋渡しする新しい知識ブリッジグラフネットワーク(KBGN)モデルを提案する。
我々のモデルは、最先端の結果で既存のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 17.119682693725718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialogue is a challenging task that needs to extract implicit
information from both visual (image) and textual (dialogue history) contexts.
Classical approaches pay more attention to the integration of the current
question, vision knowledge and text knowledge, despising the heterogeneous
semantic gaps between the cross-modal information. In the meantime, the
concatenation operation has become de-facto standard to the cross-modal
information fusion, which has a limited ability in information retrieval. In
this paper, we propose a novel Knowledge-Bridge Graph Network (KBGN) model by
using graph to bridge the cross-modal semantic relations between vision and
text knowledge in fine granularity, as well as retrieving required knowledge
via an adaptive information selection mode. Moreover, the reasoning clues for
visual dialogue can be clearly drawn from intra-modal entities and inter-modal
bridges. Experimental results on VisDial v1.0 and VisDial-Q datasets
demonstrate that our model outperforms existing models with state-of-the-art
results.
- Abstract(参考訳): ビジュアル対話は、ビジュアル(画像)とテキスト(ダイアログ履歴)の両方のコンテキストから暗黙の情報を抽出する必要がある困難なタスクである。
古典的なアプローチは、現在の質問、視覚知識、テキスト知識の統合にさらに注意を払って、相互モーダル情報間の異質な意味的ギャップを軽視している。
一方,連結操作は情報検索能力に限界があるクロスモーダル情報融合のデファクトスタンダードとなっている。
本稿では,視覚とテキストの知識間の交叉的意味関係を微粒度で橋渡しするためにグラフを用いた新しい知識橋グラフネットワーク(kbgn)モデルを提案する。
さらに、視覚対話の推論手がかりは、モーダル内実体とモーダル間ブリッジから明確に引き出すことができる。
VisDial v1.0 と VisDial-Q のデータセットによる実験結果から,我々のモデルは最先端の成果で既存モデルより優れていることが示された。
関連論文リスト
- Knowledge Graphs and Pre-trained Language Models enhanced Representation
Learning for Conversational Recommender Systems [63.974673451117226]
本稿では,対話型推薦システムのためのエンティティの意味理解を改善するために,知識強化型エンティティ表現学習(KERL)フレームワークを紹介する。
KERLは知識グラフと事前訓練された言語モデルを使用して、エンティティの意味的理解を改善する。
KERLはレコメンデーションとレスポンス生成の両方のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-18T06:41:23Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Enhancing Dialogue Generation via Dynamic Graph Knowledge Aggregation [23.54754465832362]
従来のグラフニューラルネットワーク(GNN)では、グラフに渡すメッセージはテキストとは独立している。
このトレーニング体制は、グラフ知識とテキストの間に意味的なギャップをもたらす。
知識グラフ強化対話生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T13:21:00Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured
Knowledge Aggregation [21.331251731675668]
常識知識は多くの自然言語処理タスクに不可欠である。
既存の研究は通常、グラフ知識を従来のグラフニューラルネットワーク(GNN)に組み込む。
これらの異なる表現学習段階は、ニューラルネットワークが入力知識の両タイプに含まれる全体的な文脈を学習するのに最適であるかもしれない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-10T16:31:35Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented
Dialogue Systems [9.560436630775762]
エンドツーエンドのタスク指向対話システムは,平易なテキスト入力から直接システム応答を生成することを目的としている。
1つは、外部知識ベース(KB)を学習フレームワークに効果的に組み込む方法であり、もう1つは、対話履歴のセマンティクスを正確に捉える方法である。
この2つの課題は、知識ベースと対話の依存性解析ツリーにおけるグラフ構造情報を活用することで解決される。
論文 参考訳(メタデータ) (2020-10-04T00:04:40Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。