論文の概要: Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension
- arxiv url: http://arxiv.org/abs/2003.00403v1
- Date: Sun, 1 Mar 2020 04:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:03:43.963809
- Title: Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension
- Title(参考訳): Cops-Ref: 合成参照式に関する新しいデータセットと課題
- Authors: Zhenfang Chen, Peng Wang, Lin Ma, Kwan-Yee K. Wong, Qi Wu
- Abstract要約: Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 39.40351938417889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REF) aims at identifying a particular
object in a scene by a natural language expression. It requires joint reasoning
over the textual and visual domains to solve the problem. Some popular
referring expression datasets, however, fail to provide an ideal test bed for
evaluating the reasoning ability of the models, mainly because 1) their
expressions typically describe only some simple distinctive properties of the
object and 2) their images contain limited distracting information. To bridge
the gap, we propose a new dataset for visual reasoning in context of referring
expression comprehension with two main features. First, we design a novel
expression engine rendering various reasoning logics that can be flexibly
combined with rich visual properties to generate expressions with varying
compositionality. Second, to better exploit the full reasoning chain embodied
in an expression, we propose a new test setting by adding additional
distracting images containing objects sharing similar properties with the
referent, thus minimising the success rate of reasoning-free cross-domain
alignment. We evaluate several state-of-the-art REF models, but find none of
them can achieve promising performance. A proposed modular hard mining strategy
performs the best but still leaves substantial room for improvement. We hope
this new dataset and task can serve as a benchmark for deeper visual reasoning
analysis and foster the research on referring expression comprehension.
- Abstract(参考訳): Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
この問題を解決するためには、テキストドメインと視覚ドメインを共同で推論する必要がある。
しかし、いくつかの一般的な参照表現データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
1)それらの表現は、通常、対象の単純明快な特性のみを記述し、
2) その画像には, 限られた情報が含まれている。
このギャップを埋めるために,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
まず,多彩な視覚特性と柔軟に組み合わせ,構成の異なる表現を生成する様々な推論論理を表現可能な新しい表現エンジンを設計する。
第2に,表現に具現化された推論連鎖をよりうまく活用するために,類似した特性を共有するオブジェクトを含む画像の追加による新たなテスト設定を提案し,推論不要なクロスドメインアライメントの成功率を最小化する。
我々は最先端のREFモデルをいくつか評価するが、いずれも有望な性能を達成できない。
提案されたモジュラーハードマイニング戦略は最善を尽くすが、改善の余地は十分残されている。
この新しいデータセットとタスクが、より深い視覚的推論分析のベンチマークとなり、表現の理解に関する研究が促進されることを願っている。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction [12.745111000109178]
PEElingは、画像認識特性の低減によるテキスト摂動手法であり、視覚的グラウンドリングモデルの対角テストを行う。
マルチモーダルインパクトスコア(MMI)は21.4%に達し、画像やテキストの最先端のベースラインを8.2%から15.1%上回っている。
論文 参考訳(メタデータ) (2024-03-02T08:03:42Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。