論文の概要: Give Me Something to Eat: Referring Expression Comprehension with
Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2006.01629v2
- Date: Mon, 17 Aug 2020 11:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:37:40.399020
- Title: Give Me Something to Eat: Referring Expression Comprehension with
Commonsense Knowledge
- Title(参考訳): 何か食べさせる:常識知識による表現理解を参照すること
- Authors: Peng Wang, Dongyang Liu, Hui Li and Qi Wu
- Abstract要約: 実際には、特に正確な目標がない場合に、その可視性や他の非視覚的属性を記述することで、オブジェクトを尋ねることが多い。
本稿では16k画像上に43kの表現を含むKB-Refという参照式データセットを新たに収集する。
各式(式によって参照される対象オブジェクトを検出する)に答えるためには、少なくとも1つのコモンセンス知識が必要である。
- 参考スコア(独自算出の注目度): 19.266373371334442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional referring expression comprehension (REF) assumes people to query
something from an image by describing its visual appearance and spatial
location, but in practice, we often ask for an object by describing its
affordance or other non-visual attributes, especially when we do not have a
precise target. For example, sometimes we say 'Give me something to eat'. In
this case, we need to use commonsense knowledge to identify the objects in the
image. Unfortunately, these is no existing referring expression dataset
reflecting this requirement, not to mention a model to tackle this challenge.
In this paper, we collect a new referring expression dataset, called KB-Ref,
containing 43k expressions on 16k images. In KB-Ref, to answer each expression
(detect the target object referred by the expression), at least one piece of
commonsense knowledge must be required. We then test state-of-the-art (SoTA)
REF models on KB-Ref, finding that all of them present a large drop compared to
their outstanding performance on general REF datasets. We also present an
expression conditioned image and fact attention (ECIFA) network that extract
information from correlated image regions and commonsense knowledge facts. Our
method leads to a significant improvement over SoTA REF models, although there
is still a gap between this strong baseline and human performance. The dataset
and baseline models will be released.
- Abstract(参考訳): 従来の参照表現理解(REF)では、視覚的外観や空間的位置を記述して画像から何かをクエリすることを前提としていますが、実際には、特に正確なターゲットを持たない場合には、その可視性や他の非視覚的属性を記述することで、オブジェクトを要求します。
例えば「何か食べるものをくれ」と言うこともある。
この場合、イメージ内のオブジェクトを識別するためにcommonsenseの知識を使用する必要があります。
残念ながら、これらは、この要件を反映した既存の参照式データセットではない。
本稿では,16k画像上に43k表現を含む新しい参照表現データセットkb-refを収集する。
kb-refでは、各式に答える(式で参照される対象オブジェクトを検出する)には、少なくとも1つの常識知識が必要である。
次に、kb-refで最先端(sota)refモデルをテストし、一般的なrefデータセットでの優れたパフォーマンスと比較すると、これらすべてが大きな低下を示した。
また、相関画像領域と常識知識事実から情報を抽出する表現条件付き画像・事実注意ネットワーク(ECIFA)を提案する。
提案手法はSoTA REFモデルよりも大幅に改善されているが,この強力なベースラインと人的性能の間にはまだ差がある。
データセットとベースラインモデルがリリースされる。
関連論文リスト
- Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z) - Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension [39.40351938417889]
Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-01T04:59:38Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。