論文の概要: Maria: A Visual Experience Powered Conversational Agent
- arxiv url: http://arxiv.org/abs/2105.13073v1
- Date: Thu, 27 May 2021 11:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:41:41.658154
- Title: Maria: A Visual Experience Powered Conversational Agent
- Title(参考訳): maria: ビジュアルエクスペリエンスを活用した会話エージェント
- Authors: Zujie Liang, Huang Hu, Can Xu, Chongyang Tao, Xiubo Geng, Yining Chen,
Fan Liang and Daxin Jiang
- Abstract要約: 視覚の世界体験を利用したニューラルな会話エージェントであるMariaを紹介します。
マリアは3つの柔軟なコンポーネント、すなわちテキスト・ツー・イメージ・レトリバー、ビジュアル・コンセプト・ディテクター、およびビジュアル・知識・グラウンドド・レスポンス・ジェネレータから構成される。
- 参考スコア(独自算出の注目度): 28.807145741512993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arguably, the visual perception of conversational agents to the physical
world is a key way for them to exhibit the human-like intelligence.
Image-grounded conversation is thus proposed to address this challenge.
Existing works focus on exploring the multimodal dialog models that ground the
conversation on a given image. In this paper, we take a step further to study
image-grounded conversation under a fully open-ended setting where no paired
dialog and image are assumed available. Specifically, we present Maria, a
neural conversation agent powered by the visual world experiences which are
retrieved from a large-scale image index. Maria consists of three flexible
components, i.e., text-to-image retriever, visual concept detector and
visual-knowledge-grounded response generator. The retriever aims to retrieve a
correlated image to the dialog from an image index, while the visual concept
detector extracts rich visual knowledge from the image. Then, the response
generator is grounded on the extracted visual knowledge and dialog context to
generate the target response. Extensive experiments demonstrate Maria
outperforms previous state-of-the-art methods on automatic metrics and human
evaluation, and can generate informative responses that have some visual
commonsense of the physical world.
- Abstract(参考訳): 物理的世界に対する会話エージェントの視覚的認識は、人間のような知性を示すための鍵となる方法である。
そこで,この課題に対処するために,画像地上会話を提案する。
既存の作業は、ある画像上の会話を基盤とするマルチモーダルダイアログモデルの探索に重点を置いている。
本稿では,組合わせダイアログや画像が利用できない完全開放的な設定の下で,画像接地会話についてさらに検討する。
具体的には、大規模画像インデックスから検索した視覚世界体験を利用したニューラルネットワークエージェントであるMariaを紹介する。
mariaは3つの柔軟なコンポーネントで構成されており、テキストから画像へのレトリバー、視覚概念検出器、視覚知識接地応答生成器である。
検索者は、画像インデックスからダイアログに関連付けられた画像を取得し、視覚概念検出器は、画像から豊かな視覚知識を抽出する。
そして、抽出された視覚知識と対話コンテキストに基づいて応答生成装置を接地し、ターゲット応答を生成する。
大規模な実験では、マリアは自動測定と人的評価で過去の最先端の手法よりも優れており、物理的な世界の視覚的な共通点を持つ情報応答を生成することができる。
関連論文リスト
- Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。