論文の概要: Multi-Modal Dialogue State Tracking for Playing GuessWhich Game
- arxiv url: http://arxiv.org/abs/2408.08431v1
- Date: Thu, 15 Aug 2024 21:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:09:56.043456
- Title: Multi-Modal Dialogue State Tracking for Playing GuessWhich Game
- Title(参考訳): GuessWhich ゲームにおける多モード対話状態追跡
- Authors: Wei Pang, Ruixue Duan, Jinfu Yang, Ning Li,
- Abstract要約: GuessWhichでは、QBot(QBot)とAnswer Bot(ABot)がイメージゲスティングの文脈で相互作用する。
本稿では,未開示画像のメンタルモデルを用いて視覚的関連推論に焦点を当てた新しいアプローチを提案する。
各ラウンドにおいて、QBotは、対話状態を使用して視覚的に関連する推論を行い、内部表現を構築し、関連する質問を生成し、回答を受け取ると、対話状態と内部表現の両方を更新する。
- 参考スコア(独自算出の注目度): 3.784841749866846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GuessWhich is an engaging visual dialogue game that involves interaction between a Questioner Bot (QBot) and an Answer Bot (ABot) in the context of image-guessing. In this game, QBot's objective is to locate a concealed image solely through a series of visually related questions posed to ABot. However, effectively modeling visually related reasoning in QBot's decision-making process poses a significant challenge. Current approaches either lack visual information or rely on a single real image sampled at each round as decoding context, both of which are inadequate for visual reasoning. To address this limitation, we propose a novel approach that focuses on visually related reasoning through the use of a mental model of the undisclosed image. Within this framework, QBot learns to represent mental imagery, enabling robust visual reasoning by tracking the dialogue state. The dialogue state comprises a collection of representations of mental imagery, as well as representations of the entities involved in the conversation. At each round, QBot engages in visually related reasoning using the dialogue state to construct an internal representation, generate relevant questions, and update both the dialogue state and internal representation upon receiving an answer. Our experimental results on the VisDial datasets (v0.5, 0.9, and 1.0) demonstrate the effectiveness of our proposed model, as it achieves new state-of-the-art performance across all metrics and datasets, surpassing previous state-of-the-art models. Codes and datasets from our experiments are freely available at \href{https://github.com/xubuvd/GuessWhich}.
- Abstract(参考訳): GuessWhichは、QBot(QBot)とAnswer Bot(ABot)のインタラクションをイメージゲスティングのコンテキストで行う、魅力的なビジュアル対話ゲームである。
このゲームでは、QBotの目的は、ABotに提示される一連の視覚的関連質問を通してのみ隠された画像を見つけることである。
しかし、QBotの意思決定プロセスにおける視覚的関連推論を効果的にモデル化することは大きな課題となる。
現在のアプローチでは、視覚的な情報がないか、各ラウンドでサンプリングされた1つの実像をデコードコンテキストとして依存しており、どちらも視覚的推論には不十分である。
この制限に対処するために、未開示画像のメンタルモデルを用いて視覚的関連推論に焦点を当てた新しいアプローチを提案する。
このフレームワーク内では、QBotはメンタルイメージを表現することを学び、対話状態を追跡することで、堅牢な視覚的推論を可能にする。
対話状態は、メンタルイメージの表現のコレクションと、会話に関わるエンティティの表現を含む。
各ラウンドにおいて、QBotは、対話状態を使用して視覚的に関連する推論を行い、内部表現を構築し、関連する質問を生成し、回答を受け取ると、対話状態と内部表現の両方を更新する。
VisDial データセット (v0.5,0.9,1.0) に関する実験結果から,提案モデルの有効性が示された。
我々の実験のコードとデータセットは、 \href{https://github.com/xubuvd/GuessWhich} で自由に入手できる。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination [87.4797527628459]
我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2022-07-08T15:28:23Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - Spot the Difference: A Cooperative Object-Referring Game in
Non-Perfectly Co-Observable Scene [47.7861036048079]
本稿では,不完全に共存可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。
目的は、自然言語で会話することで、類似した視覚シーンの違いを見つけることである。
87kのバーチャルリアリティ画像と97kのダイアログを自己再生で生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
論文 参考訳(メタデータ) (2022-03-16T02:55:33Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Modeling Explicit Concerning States for Reinforcement Learning in Visual
Dialogue [43.42833961578857]
本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表すために,ECS(Explicit Concerning States)を提案する。
ECSはマルチモーダル情報からモデル化され、明示的に表現される。
ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。
論文 参考訳(メタデータ) (2021-07-12T08:15:35Z) - Maria: A Visual Experience Powered Conversational Agent [28.807145741512993]
視覚の世界体験を利用したニューラルな会話エージェントであるMariaを紹介します。
マリアは3つの柔軟なコンポーネント、すなわちテキスト・ツー・イメージ・レトリバー、ビジュアル・コンセプト・ディテクター、およびビジュアル・知識・グラウンドド・レスポンス・ジェネレータから構成される。
論文 参考訳(メタデータ) (2021-05-27T11:45:29Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。