論文の概要: Text is NOT Enough: Integrating Visual Impressions intoOpen-domain
Dialogue Generation
- arxiv url: http://arxiv.org/abs/2109.05778v1
- Date: Mon, 13 Sep 2021 08:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:46:20.440806
- Title: Text is NOT Enough: Integrating Visual Impressions intoOpen-domain
Dialogue Generation
- Title(参考訳): テキストは十分ではない:オープンドメイン対話生成に視覚印象を統合する
- Authors: Lei Shen, Haolan Zhan, Xin Shen, Yonghao Song and Xiaofang Zhao
- Abstract要約: 自然言語処理(NLP)におけるオープンドメイン対話生成は、デフォルトでは純粋言語タスクである。
ビジュアルインプレッション (VIs) と呼ばれる隠された画像は、対話理解を強化するためにテキストのみのデータから探索することができる。
我々は、純粋言語対話データセットに基づくVIを明示的に構築するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.104415187890773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain dialogue generation in natural language processing (NLP) is by
default a pure-language task, which aims to satisfy human need for daily
communication on open-ended topics by producing related and informative
responses. In this paper, we point out that hidden images, named as visual
impressions (VIs), can be explored from the text-only data to enhance dialogue
understanding and help generate better responses. Besides, the semantic
dependency between an dialogue post and its response is complicated, e.g., few
word alignments and some topic transitions. Therefore, the visual impressions
of them are not shared, and it is more reasonable to integrate the response
visual impressions (RVIs) into the decoder, rather than the post visual
impressions (PVIs). However, both the response and its RVIs are not given
directly in the test process. To handle the above issues, we propose a
framework to explicitly construct VIs based on pure-language dialogue datasets
and utilize them for better dialogue understanding and generation.
Specifically, we obtain a group of images (PVIs) for each post based on a
pre-trained word-image mapping model. These PVIs are used in a co-attention
encoder to get a post representation with both visual and textual information.
Since the RVIs are not provided directly during testing, we design a cascade
decoder that consists of two sub-decoders. The first sub-decoder predicts the
content words in response, and applies the word-image mapping model to get
those RVIs. Then, the second sub-decoder generates the response based on the
post and RVIs. Experimental results on two open-domain dialogue datasets show
that our proposed approach achieves superior performance over competitive
baselines.
- Abstract(参考訳): 自然言語処理(nlp)におけるオープンドメイン対話生成(open-domain dialogue generation in natural language processing)は、既定の純粋言語タスクである。
本稿では,視覚インプレッション(vis)と呼ばれる隠れた画像が,テキストのみのデータから探索でき,対話理解が向上し,より優れた応答を生成することができることを指摘する。
さらに、対話投稿とその応答間の意味的依存関係は複雑で、例えば、単語のアライメントがほとんどなく、トピックの遷移もいくつかある。
したがって、それらの視覚印象は共有されておらず、ポスト視覚印象(PVI)よりも応答視覚印象(RVI)をデコーダに統合することがより合理的である。
しかしながら、応答とそのRVIは、テストプロセスで直接与えられない。
上記の問題に対処するため、純粋言語対話データセットに基づくVIを明示的に構築し、より優れた対話理解と生成に活用するフレームワークを提案する。
具体的には,事前学習した単語イメージマッピングモデルに基づいて,投稿毎に画像群(PVI)を求める。
これらのPVIは、視覚情報とテキスト情報の両方でポスト表現を得るために、コアテンションエンコーダで使用される。
RVIはテスト中に直接提供されないため、2つのサブデコーダで構成されるカスケードデコーダを設計する。
最初のサブデコーダは、応答中のコンテンツワードを予測し、単語イメージマッピングモデルを適用してそれらのRVIを取得する。
そして、第2のサブデコーダは、そのポストとRVIに基づいて応答を生成する。
2つのオープンドメイン対話データセットの実験結果は,提案手法が競合ベースラインよりも優れた性能を達成していることを示す。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。