論文の概要: Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic
Representation
- arxiv url: http://arxiv.org/abs/2105.11541v1
- Date: Mon, 24 May 2021 21:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-05-26 14:13:12.701104
- Title: Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic
Representation
- Title(参考訳): 事前学習型視覚言語表現によるより良い視覚対話エージェントの学習
- Authors: Tao Tu, Qing Ping, Govind Thattai, Gokhan Tur, Prem Natarajan
- Abstract要約: 私たちはVilbertベースのOracle, Guesser, Questionerを提案しています。
提案したモデルは,それぞれOracle,Guesser,End-to-End Questionerに対して,最先端モデルの7%,10%,12%を大きく上回る結果を得た。
- 参考スコア(独自算出の注目度): 14.593959559173651
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GuessWhat?! is a two-player visual dialog guessing game where player A asks a
sequence of yes/no questions (Questioner) and makes a final guess (Guesser)
about a target object in an image, based on answers from player B (Oracle).
Based on this dialog history between the Questioner and the Oracle, a Guesser
makes a final guess of the target object. Previous baseline Oracle model
encodes no visual information in the model, and it cannot fully understand
complex questions about color, shape, relationships and so on. Most existing
work for Guesser encode the dialog history as a whole and train the Guesser
models from scratch on the GuessWhat?! dataset. This is problematic since
language encoder tend to forget long-term history and the GuessWhat?! data is
sparse in terms of learning visual grounding of objects. Previous work for
Questioner introduces state tracking mechanism into the model, but it is
learned as a soft intermediates without any prior vision-linguistic insights.
To bridge these gaps, in this paper we propose Vilbert-based Oracle, Guesser
and Questioner, which are all built on top of pretrained vision-linguistic
model, Vilbert. We introduce two-way background/target fusion mechanism into
Vilbert-Oracle to account for both intra and inter-object questions. We propose
a unified framework for Vilbert-Guesser and Vilbert-Questioner, where
state-estimator is introduced to best utilize Vilbert's power on single-turn
referring expression comprehension. Experimental results show that our proposed
models outperform state-of-the-art models significantly by 7%, 10%, 12% for
Oracle, Guesser and End-to-End Questioner respectively.
- Abstract(参考訳): なんだって?
プレイヤーaがyes/noの質問(質問者)のシーケンスを質問し、プレイヤーb(oracle)の回答に基づいて画像中の対象オブジェクトの最終的な推測(ゲッセ)を行う2人のプレイヤーによるビジュアルダイアログ推測ゲームである。
QuestionerとOracleの間のこのダイアログ履歴に基づいて、Guesserはターゲットオブジェクトの最終的な推測を行う。
以前のベースラインのOracleモデルは、モデルに視覚的な情報をエンコードしておらず、色、形、関係などに関する複雑な質問を完全には理解できません。
Guesserの既存の作業のほとんどは、ダイアログ履歴全体をエンコードし、GuesserモデルをGuessWhatのスクラッチからトレーニングしています!
データセット。
言語エンコーダは長い歴史や推測を忘れがちなので、これは問題です。
オブジェクトの視覚的な接地を学ぶという点では、データは疎い。
Questionerの以前の研究は、状態追跡メカニズムをモデルに導入していたが、従来の視覚言語的な洞察を持たないソフト中間体として学習されている。
これらのギャップを埋めるため,本論文では,事前学習されたビジョン言語モデルであるvilbert上に構築された,vilbertベースのoracle, guesser,そして questionerを提案する。
対象物内および対象物間の問合せを考慮すべく,両方向のバックグラウンド/ターゲット融合機構をVilbert-Oracleに導入する。
本稿では,一ターン参照表現の理解において,ビルベルトの力を最大限活用するための状態推定器を提案する。
実験の結果,提案したモデルは,Oracle,Guesser,End-to-End Questionerでそれぞれ7%,10%,12%,それぞれ有意なパフォーマンスを示した。
関連論文リスト
- InterroLang: Exploring NLP Models and Datasets through Dialogue-based
Explanations [8.833264791078825]
我々は,対話型説明フレームワークTalkToModelをNLPドメインに適用し,自由文合理化などの新たなNLP固有の操作を追加する。
説明のためのユーザクエリを識別するために、微調整および少数ショットプロンプトモデルの評価を行った。
本研究は,(1) 対話の正当性と有用性,(2) 再現性に関する2つのユーザスタディである。
論文 参考訳(メタデータ) (2023-10-09T10:27:26Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question
Answering with Hypothetical Actions over Images [31.317663183139384]
視覚的な理解は、特定のシナリオで特定のアクションを実行するという仮説的な結果が精神的にシミュレートされるような質問に答えることに挑戦される。
CLEVRデータセットに基づいて視覚言語による質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2021-04-13T07:29:21Z) - Imagining Grounded Conceptual Representations from Perceptual
Information in Situated Guessing Games [83.53942719040576]
視覚的な推測ゲームでは、GuesserはOracleに質問することで、シーン内のターゲットオブジェクトを特定する必要がある。
既存のモデルは真のマルチモーダル表現を学ばず、訓練と推論の両方でシーン内のオブジェクトのゴールドカテゴリラベルに依存している。
本稿では,正規化オートエンコーダをベースとした新しい「想像」モジュールを提案する。
論文 参考訳(メタデータ) (2020-11-05T15:42:29Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Reasoning Visual Dialog with Sparse Graph Learning and Knowledge
Transfer [22.820709255518]
グラフ構造学習タスクとして視覚対話を定式化するためのスパースグラフ学習(SGL)手法を提案する。
次に,教師モデルから回答予測を抽出し,擬似ラベルとして利用する知識伝達(KT)手法を提案する。
提案手法は,ベースライン手法と比較して推論能力を大幅に向上させ,VisDial v1.0データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-14T17:52:41Z) - Guessing State Tracking for Visual Dialogue [14.882187255565661]
Guesserは、Guessのビジュアルグラウンドのタスクだ。
ターゲットオブジェクトは、質問者とOracleの間の質問応答ベースの対話の上に、Oracle自身が想定するイメージの中に位置します。
本稿では,ゲーサーの推測状態について提案し,その推測状態が対話を通して変化する過程として考察する。
論文 参考訳(メタデータ) (2020-02-24T16:09:45Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。