論文の概要: Spot the Difference: A Cooperative Object-Referring Game in
Non-Perfectly Co-Observable Scene
- arxiv url: http://arxiv.org/abs/2203.08362v1
- Date: Wed, 16 Mar 2022 02:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:47:54.913154
- Title: Spot the Difference: A Cooperative Object-Referring Game in
Non-Perfectly Co-Observable Scene
- Title(参考訳): 非効率で観察可能なシーンにおける協調的オブジェクト参照ゲーム
- Authors: Duo Zheng, Fandong Meng, Qingyi Si, Hairun Fan, Zipeng Xu, Jie Zhou,
Fangxiang Feng, Xiaojie Wang
- Abstract要約: 本稿では,不完全に共存可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。
目的は、自然言語で会話することで、類似した視覚シーンの違いを見つけることである。
87kのバーチャルリアリティ画像と97kのダイアログを自己再生で生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
- 参考スコア(独自算出の注目度): 47.7861036048079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual dialog has witnessed great progress after introducing various
vision-oriented goals into the conversation, especially such as GuessWhich and
GuessWhat, where the only image is visible by either and both of the questioner
and the answerer, respectively. Researchers explore more on visual dialog tasks
in such kind of single- or perfectly co-observable visual scene, while somewhat
neglect the exploration on tasks of non perfectly co-observable visual scene,
where the images accessed by two agents may not be exactly the same, often
occurred in practice. Although building common ground in non-perfectly
co-observable visual scene through conversation is significant for advanced
dialog agents, the lack of such dialog task and corresponding large-scale
dataset makes it impossible to carry out in-depth research. To break this
limitation, we propose an object-referring game in non-perfectly co-observable
visual scene, where the goal is to spot the difference between the similar
visual scenes through conversing in natural language. The task addresses
challenges of the dialog strategy in non-perfectly co-observable visual scene
and the ability of categorizing objects. Correspondingly, we construct a
large-scale multimodal dataset, named SpotDiff, which contains 87k Virtual
Reality images and 97k dialogs generated by self-play. Finally, we give
benchmark models for this task, and conduct extensive experiments to evaluate
its performance as well as analyze its main challenges.
- Abstract(参考訳): ビジュアルダイアログは、特にGuessWhichやGuessWhatのような会話に様々なビジョン指向の目標を導入した後、大きな進歩を目の当たりにした。
研究者は、視覚的なダイアログのタスクについて、単一の、あるいは完全に観察可能なビジュアルシーンでより詳しく調査する一方で、2つのエージェントがアクセスするイメージが全く同じではないかもしれない非完全に観察可能なビジュアルシーンのタスクの探索を幾分無視する。
非完全で同時観測可能な視覚シーンにおける会話による共通基盤の構築は、高度なダイアログエージェントにとって重要であるが、そのようなダイアログタスクとそれに対応する大規模データセットの欠如により、詳細な研究は不可能である。
この制限を打破するために,自然言語で会話することで類似した視覚シーンの違いを見つけることを目的として,非完全共観測可能な視覚シーンにおけるオブジェクト参照ゲームを提案する。
このタスクは、非完全で観測可能な視覚的シーンにおけるダイアログ戦略の課題と、オブジェクトを分類する能力に対処する。
そこで我々は,87kのバーチャルリアリティ画像と97kのダイアログをセルフプレイで生成する,SpotDiffという大規模マルチモーダルデータセットを構築した。
最後に、このタスクのベンチマークモデルを提供し、その性能を評価するとともに、主な課題を分析するために広範な実験を行う。
関連論文リスト
- Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Unsupervised Object-Centric Learning from Multiple Unspecified
Viewpoints [45.88397367354284]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2024-01-03T15:09:25Z) - Supplementing Missing Visions via Dialog for Scene Graph Generations [14.714122626081064]
不完全な視覚入力データを用いたコンピュータビジョンタスク設定について検討する。
本稿では,課題目標を達成するために,自然言語対話による視覚の不足を補うことを提案する。
本稿では,視覚的入力を欠いたタスク設定の実現可能性と,補助情報として提案したダイアログモジュールの有効性を示す。
論文 参考訳(メタデータ) (2022-04-23T21:46:17Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。