論文の概要: Guessing State Tracking for Visual Dialogue
- arxiv url: http://arxiv.org/abs/2002.10340v5
- Date: Sat, 18 Jul 2020 06:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:15:20.103595
- Title: Guessing State Tracking for Visual Dialogue
- Title(参考訳): 視覚対話のための推測状態追跡
- Authors: Wei Pang, Xiaojie Wang
- Abstract要約: Guesserは、Guessのビジュアルグラウンドのタスクだ。
ターゲットオブジェクトは、質問者とOracleの間の質問応答ベースの対話の上に、Oracle自身が想定するイメージの中に位置します。
本稿では,ゲーサーの推測状態について提案し,その推測状態が対話を通して変化する過程として考察する。
- 参考スコア(独自算出の注目度): 14.882187255565661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Guesser is a task of visual grounding in GuessWhat?! like visual
dialogue. It locates the target object in an image supposed by an Oracle
oneself over a question-answer based dialogue between a Questioner and the
Oracle. Most existing guessers make one and only one guess after receiving all
question-answer pairs in a dialogue with the predefined number of rounds. This
paper proposes a guessing state for the Guesser, and regards guess as a process
with change of guessing state through a dialogue. A guessing state tracking
based guess model is therefore proposed. The guessing state is defined as a
distribution on objects in the image. With that in hand, two loss functions are
defined as supervisions for model training. Early supervision brings
supervision to Guesser at early rounds, and incremental supervision brings
monotonicity to the guessing state. Experimental results on GuessWhat?! dataset
show that our model significantly outperforms previous models, achieves new
state-of-the-art, especially the success rate of guessing 83.3% is approaching
the human-level accuracy of 84.4%.
- Abstract(参考訳): 推理者は 視覚的な 接地作業なんだって!?
視覚対話のように
質問者とオラクルの間の質問応答ベースの対話を通じて、oracle自身によって想定されるイメージにターゲットオブジェクトを配置する。
既存の推測者は、事前に定義されたラウンド数との対話で全ての質問対を受け取った後に1つだけ推測する。
本稿では,推測者の推測状態を提案し,対話を通じて推測状態が変化する過程として推測を考察する。
そこで,状態追跡に基づく推定モデルを提案する。
推測状態は、画像内のオブジェクトの分布として定義される。
その際、2つの損失関数をモデルトレーニングの監督として定義する。
早期監督は早期のラウンドでGuesserに監督をもたらし、漸進的な監督は推測状態に単調性をもたらす。
Guessに関する実験結果。
データセットは、我々のモデルが以前のモデルを大幅に上回っており、新しい最先端技術を達成していることを示している。特に83.3%の予測成功率は、84.4%の人間レベルの精度に近づいている。
関連論文リスト
- Multi-Modal Dialogue State Tracking for Playing GuessWhich Game [3.784841749866846]
GuessWhichでは、QBot(QBot)とAnswer Bot(ABot)がイメージゲスティングの文脈で相互作用する。
本稿では,未開示画像のメンタルモデルを用いて視覚的関連推論に焦点を当てた新しいアプローチを提案する。
各ラウンドにおいて、QBotは、対話状態を使用して視覚的に関連する推論を行い、内部表現を構築し、関連する質問を生成し、回答を受け取ると、対話状態と内部表現の両方を更新する。
論文 参考訳(メタデータ) (2024-08-15T21:46:19Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Visual Abductive Reasoning [85.17040703205608]
帰納的推論は、部分的な観察の可能な限りの可能な説明を求める。
本稿では,日常的な視覚的状況下でのマシンインテリジェンスの帰納的推論能力を調べるために,新たなタスクとデータセットであるVisual Abductive Reasoning(VAR)を提案する。
論文 参考訳(メタデータ) (2022-03-26T10:17:03Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Effective Sequence-to-Sequence Dialogue State Tracking [22.606650177804966]
事前学習対象の選択は、状態追跡品質に有意な違いをもたらすことを示す。
また、状態追跡モデルに対して、テキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。
その結果,対話状態の追跡には,遠隔要約タスクの事前学習が驚くほど有効であることが判明した。
論文 参考訳(メタデータ) (2021-08-31T17:27:59Z) - Scene Uncertainty and the Wellington Posterior of Deterministic Image
Classifiers [68.9065881270224]
Wellington Posteriorは、同じシーンで生成された可能性のあるデータに応答して得られるであろう結果の分布である。
We we explore the use of data augmentation, dropout, ensembling, single-view reconstruction and model linearization to compute a Wellington Posterior。
他にも、生成逆数ネットワーク、ニューラルレイディアンスフィールド、条件付き事前ネットワークなどの条件付き生成モデルの使用がある。
論文 参考訳(メタデータ) (2021-06-25T20:10:00Z) - Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic
Representation [14.593959559173651]
私たちはVilbertベースのOracle, Guesser, Questionerを提案しています。
提案したモデルは,それぞれOracle,Guesser,End-to-End Questionerに対して,最先端モデルの7%,10%,12%を大きく上回る結果を得た。
論文 参考訳(メタデータ) (2021-05-24T21:09:20Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Transformation Driven Visual Reasoning [80.32402545546209]
本稿では,重要な要因,すなわちトランスフォーメーションを導入することで,新たな視覚的推論パラダイムを定義する。
この種のテキスト状態駆動型視覚推論アプローチは、マシンが異なる状態間のダイナミクスを推論する能力を持っているかどうかを反映する限界がある、と我々は主張する。
実験結果から,現在最先端の視覚推論モデルは,Basic上では良好に動作するが,イベントやビューにおける人間レベルのインテリジェンスには程遠いことが示唆された。
論文 参考訳(メタデータ) (2020-11-26T07:11:31Z) - Predict-then-Decide: A Predictive Approach for Wait or Answer Task in
Dialogue Systems [24.560203199376478]
本稿では,このウェイト・オア・アンサー問題に対処するための予測手法であるPredict-then-Decide (PTD)を提案する。
2つの実生活シナリオと3つの公開データセットで実験を行う。
論文 参考訳(メタデータ) (2020-05-27T01:48:54Z) - Guesswork with Quantum Side Information [12.043574473965318]
一般的な推測戦略は、単一の測定を行い、推測戦略を選択することと等価であることを示す。
BB84状態を含む簡単な例を数値的および解析的に評価する。
論文 参考訳(メタデータ) (2020-01-10T18:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。