論文の概要: Learning to Ground Visual Objects for Visual Dialog
- arxiv url: http://arxiv.org/abs/2109.06013v1
- Date: Mon, 13 Sep 2021 14:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:06:53.653639
- Title: Learning to Ground Visual Objects for Visual Dialog
- Title(参考訳): ビジュアルダイアログのためのビジュアルオブジェクトのグラウンド学習
- Authors: Feilong Chen, Xiuyi Chen, Can Xu and Daxin Jiang
- Abstract要約: 視覚対話のための視覚オブジェクトを学習する新しい手法を提案する。
視覚的対象に対する後続分布は、文脈(歴史と疑問)と答えの両方から推測される。
文脈のみから推定される事前分布を用いて後部分布を近似し、回答なしに適切な視覚オブジェクトをグラウンド化できるようにする。
- 参考スコア(独自算出の注目度): 26.21407651331964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialog is challenging since it needs to answer a series of coherent
questions based on understanding the visual environment. How to ground related
visual objects is one of the key problems. Previous studies utilize the
question and history to attend to the image and achieve satisfactory
performance, however these methods are not sufficient to locate related visual
objects without any guidance. The inappropriate grounding of visual objects
prohibits the performance of visual dialog models. In this paper, we propose a
novel approach to Learn to Ground visual objects for visual dialog, which
employs a novel visual objects grounding mechanism where both prior and
posterior distributions over visual objects are used to facilitate visual
objects grounding. Specifically, a posterior distribution over visual objects
is inferred from both context (history and questions) and answers, and it
ensures the appropriate grounding of visual objects during the training
process. Meanwhile, a prior distribution, which is inferred from context only,
is used to approximate the posterior distribution so that appropriate visual
objects can be grounded even without answers during the inference process.
Experimental results on the VisDial v0.9 and v1.0 datasets demonstrate that our
approach improves the previous strong models in both generative and
discriminative settings by a significant margin.
- Abstract(参考訳): 視覚環境を理解するために一連のコヒーレントな質問に答える必要があるため、ビジュアルダイアログは難しい。
視覚オブジェクトの接地方法が重要な問題のひとつだ。
これまでの研究では、質問と履歴を利用して画像に参列し、十分なパフォーマンスを達成するが、これらの手法は、ガイダンスなしで関連する視覚オブジェクトを見つけるには不十分である。
ビジュアルオブジェクトの不適切な接地は、ビジュアルダイアログモデルのパフォーマンスを禁止します。
本稿では,視覚的対話のための視覚的オブジェクトの学習のための新しいアプローチを提案する。視覚的オブジェクトの事前分布と後続分布を用いて視覚的オブジェクトの接地を容易にする,新しい視覚的オブジェクトの接地機構を用いる。
特に、視覚オブジェクトに対する後方分布は、文脈(歴史と質問)と回答の両方から推測され、トレーニングプロセス中に視覚オブジェクトの適切な接地を保証する。
一方、文脈のみから推定される事前分布を用いて、後続分布を近似し、推論プロセス中に答えがなくても、適切な視覚オブジェクトをグラウンド化できるようにする。
VisDial v0.9 と v1.0 のデータセットを用いた実験結果から,本手法は生成的および識別的両方の設定における従来の強みモデルを大幅に改善することを示した。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。