論文の概要: Modeling Explicit Concerning States for Reinforcement Learning in Visual
Dialogue
- arxiv url: http://arxiv.org/abs/2107.05250v1
- Date: Mon, 12 Jul 2021 08:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:57:58.671166
- Title: Modeling Explicit Concerning States for Reinforcement Learning in Visual
Dialogue
- Title(参考訳): 視覚対話における強化学習状態のモデル化
- Authors: Zipeng Xu, Fandong Meng, Xiaojie Wang, Duo Zheng, Chenxu Lv and Jie
Zhou
- Abstract要約: 本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表すために,ECS(Explicit Concerning States)を提案する。
ECSはマルチモーダル情報からモデル化され、明示的に表現される。
ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。
- 参考スコア(独自算出の注目度): 43.42833961578857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To encourage AI agents to conduct meaningful Visual Dialogue (VD), the use of
Reinforcement Learning has been proven potential. In Reinforcement Learning, it
is crucial to represent states and assign rewards based on the action-caused
transitions of states. However, the state representation in previous Visual
Dialogue works uses the textual information only and its transitions are
implicit. In this paper, we propose Explicit Concerning States (ECS) to
represent what visual contents are concerned at each round and what have been
concerned throughout the Visual Dialogue. ECS is modeled from multimodal
information and is represented explicitly. Based on ECS, we formulate two
intuitive and interpretable rewards to encourage the Visual Dialogue agents to
converse on diverse and informative visual information. Experimental results on
the VisDial v1.0 dataset show our method enables the Visual Dialogue agents to
generate more visual coherent, less repetitive and more visual informative
dialogues compared with previous methods, according to multiple automatic
metrics, human study and qualitative analysis.
- Abstract(参考訳): AIエージェントに意味のあるビジュアル対話(VD)の実行を促すために、強化学習の使用が実証された。
強化学習では、国家を代表し、国家の行動による移行に基づいて報酬を割り当てることが不可欠である。
しかし、以前のVisual Dialogueにおける状態表現はテキスト情報のみを使用し、その遷移は暗黙的である。
本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表現するために,ECS(Explicit Concerning States)を提案する。
ECSはマルチモーダル情報からモデル化され、明示的に表現される。
ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。
visdial v1.0データセットにおける実験結果から,複数自動計測,人間研究,質的分析により,視覚対話エージェントが従来手法に比べて視覚的にコヒーレント,反復的,視覚的にインフォメーション的な対話を生成できることが示された。
関連論文リスト
- Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models [25.070424546200293]
本稿では,大規模言語モデル(LLM)の頑健な推論機能を活用して,正確な対話関連視覚記述子を生成する手法を提案する。
ベンチマークデータを用いて行った実験は、簡潔で正確な視覚記述子の導出における提案手法の有効性を検証した。
本研究は,多様な視覚的手がかり,多様なLCM,異なるデータセットにまたがる手法の一般化可能性を示すものである。
論文 参考訳(メタデータ) (2024-07-04T03:50:30Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution [79.05412803762528]
ビジュアルダイアログタスクでは、視覚環境に基づいたマルチラウンドダイアログにおいて、AIエージェントが人間と対話する必要がある。
本稿では,Pronoun Coreference Resolution を用いたビジュアルダイアログ理解のための新しいフレームワーク VD-PCR を提案する。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
論文 参考訳(メタデータ) (2022-05-29T15:29:50Z) - Improving Cross-Modal Understanding in Visual Dialog via Contrastive
Learning [24.673262969986993]
視覚言語事前学習モデルVD-BERTに基づいて,視覚対話におけるモーダル間理解の分析を行った。
そこで本研究では,ICMUと呼ばれる視覚対話のモーダル理解を改善するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T02:36:52Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。