論文の概要: KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning
in Visual Dialogue
- arxiv url: http://arxiv.org/abs/2008.04858v2
- Date: Fri, 28 Aug 2020 07:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:53:18.309449
- Title: KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning
in Visual Dialogue
- Title(参考訳): KBGN:ビジュアル対話における適応的視覚テキスト推論のための知識ブリッジグラフネットワーク
- Authors: Xiaoze Jiang, Siyi Du, Zengchang Qin, Yajing Sun, Jing Yu
- Abstract要約: 視覚とテキストの知識間の相互意味関係を橋渡しする新しい知識ブリッジグラフネットワーク(KBGN)モデルを提案する。
我々のモデルは、最先端の結果で既存のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 17.119682693725718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialogue is a challenging task that needs to extract implicit
information from both visual (image) and textual (dialogue history) contexts.
Classical approaches pay more attention to the integration of the current
question, vision knowledge and text knowledge, despising the heterogeneous
semantic gaps between the cross-modal information. In the meantime, the
concatenation operation has become de-facto standard to the cross-modal
information fusion, which has a limited ability in information retrieval. In
this paper, we propose a novel Knowledge-Bridge Graph Network (KBGN) model by
using graph to bridge the cross-modal semantic relations between vision and
text knowledge in fine granularity, as well as retrieving required knowledge
via an adaptive information selection mode. Moreover, the reasoning clues for
visual dialogue can be clearly drawn from intra-modal entities and inter-modal
bridges. Experimental results on VisDial v1.0 and VisDial-Q datasets
demonstrate that our model outperforms existing models with state-of-the-art
results.
- Abstract(参考訳): ビジュアル対話は、ビジュアル(画像)とテキスト(ダイアログ履歴)の両方のコンテキストから暗黙の情報を抽出する必要がある困難なタスクである。
古典的なアプローチは、現在の質問、視覚知識、テキスト知識の統合にさらに注意を払って、相互モーダル情報間の異質な意味的ギャップを軽視している。
一方,連結操作は情報検索能力に限界があるクロスモーダル情報融合のデファクトスタンダードとなっている。
本稿では,視覚とテキストの知識間の交叉的意味関係を微粒度で橋渡しするためにグラフを用いた新しい知識橋グラフネットワーク(kbgn)モデルを提案する。
さらに、視覚対話の推論手がかりは、モーダル内実体とモーダル間ブリッジから明確に引き出すことができる。
VisDial v1.0 と VisDial-Q のデータセットによる実験結果から,我々のモデルは最先端の成果で既存モデルより優れていることが示された。
関連論文リスト
- Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation [14.82606425343802]
Open-vocabulary Scene Graph Generation (OV-SGG)は、視覚的関係表現とオープンな語彙的テキスト表現を整合させることにより、クローズドセットの仮定の限界を克服する。
既存のOV-SGG法は、固定されたテキスト表現によって制約され、画像テキストアライメントの多様性と精度が制限される。
本稿では,対象物と地域固有の関係情報を統合することでテキスト表現を向上させるRAHP(Relation-Aware Hierarchical Prompting)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T02:12:37Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems [58.561904356651276]
本稿では,対話型推薦システムのためのエンティティの意味理解を改善するために,知識強化型エンティティ表現学習(KERL)フレームワークを紹介する。
KERLは知識グラフと事前訓練された言語モデルを使用して、エンティティの意味的理解を改善する。
KERLはレコメンデーションとレスポンス生成の両方のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-18T06:41:23Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation [25.56539617837482]
コンテキスト対応グラフアテンションモデル(Context-aware GAT)を提案する。
これは、コンテキスト強化された知識集約機構を通じて、関連する知識グラフからグローバルな特徴を同化する。
実験により,本フレームワークは従来のGNNベース言語モデルよりも性能が優れていることが示された。
論文 参考訳(メタデータ) (2023-05-10T16:31:35Z) - Building Knowledge-Grounded Dialogue Systems with Graph-Based Semantic Modeling [43.0554223015728]
知識基盤対話タスクは、与えられた知識文書から情報を伝える応答を生成することを目的としている。
対話と知識の両方のセマンティック構造をモデル化する新しいグラフ構造であるグラウンドドグラフを提案する。
また,知識接地応答生成を向上するグラウンドドグラフ認識変換器を提案する。
論文 参考訳(メタデータ) (2022-04-27T03:31:46Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。