論文の概要: Give Me Something to Eat: Referring Expression Comprehension with
Commonsense Knowledge
- arxiv url: http://arxiv.org/abs/2006.01629v2
- Date: Mon, 17 Aug 2020 11:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 00:37:40.399020
- Title: Give Me Something to Eat: Referring Expression Comprehension with
Commonsense Knowledge
- Title(参考訳): 何か食べさせる:常識知識による表現理解を参照すること
- Authors: Peng Wang, Dongyang Liu, Hui Li and Qi Wu
- Abstract要約: 実際には、特に正確な目標がない場合に、その可視性や他の非視覚的属性を記述することで、オブジェクトを尋ねることが多い。
本稿では16k画像上に43kの表現を含むKB-Refという参照式データセットを新たに収集する。
各式(式によって参照される対象オブジェクトを検出する)に答えるためには、少なくとも1つのコモンセンス知識が必要である。
- 参考スコア(独自算出の注目度): 19.266373371334442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional referring expression comprehension (REF) assumes people to query
something from an image by describing its visual appearance and spatial
location, but in practice, we often ask for an object by describing its
affordance or other non-visual attributes, especially when we do not have a
precise target. For example, sometimes we say 'Give me something to eat'. In
this case, we need to use commonsense knowledge to identify the objects in the
image. Unfortunately, these is no existing referring expression dataset
reflecting this requirement, not to mention a model to tackle this challenge.
In this paper, we collect a new referring expression dataset, called KB-Ref,
containing 43k expressions on 16k images. In KB-Ref, to answer each expression
(detect the target object referred by the expression), at least one piece of
commonsense knowledge must be required. We then test state-of-the-art (SoTA)
REF models on KB-Ref, finding that all of them present a large drop compared to
their outstanding performance on general REF datasets. We also present an
expression conditioned image and fact attention (ECIFA) network that extract
information from correlated image regions and commonsense knowledge facts. Our
method leads to a significant improvement over SoTA REF models, although there
is still a gap between this strong baseline and human performance. The dataset
and baseline models will be released.
- Abstract(参考訳): 従来の参照表現理解(REF)では、視覚的外観や空間的位置を記述して画像から何かをクエリすることを前提としていますが、実際には、特に正確なターゲットを持たない場合には、その可視性や他の非視覚的属性を記述することで、オブジェクトを要求します。
例えば「何か食べるものをくれ」と言うこともある。
この場合、イメージ内のオブジェクトを識別するためにcommonsenseの知識を使用する必要があります。
残念ながら、これらは、この要件を反映した既存の参照式データセットではない。
本稿では,16k画像上に43k表現を含む新しい参照表現データセットkb-refを収集する。
kb-refでは、各式に答える(式で参照される対象オブジェクトを検出する)には、少なくとも1つの常識知識が必要である。
次に、kb-refで最先端(sota)refモデルをテストし、一般的なrefデータセットでの優れたパフォーマンスと比較すると、これらすべてが大きな低下を示した。
また、相関画像領域と常識知識事実から情報を抽出する表現条件付き画像・事実注意ネットワーク(ECIFA)を提案する。
提案手法はSoTA REFモデルよりも大幅に改善されているが,この強力なベースラインと人的性能の間にはまだ差がある。
データセットとベースラインモデルがリリースされる。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Resilience through Scene Context in Visual Referring Expression Generation [8.883534683127415]
画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。
我々は、REGにおけるシーンコンテキストに関する新たな視点を捉え、REGモデルをより弾力性のあるものにするためのリソースとして、コンテキスト情報が考えられることを仮定する。
論文 参考訳(メタデータ) (2024-04-18T16:10:38Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension [39.40351938417889]
Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-01T04:59:38Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。