論文の概要: Detecting out-of-context objects using contextual cues
- arxiv url: http://arxiv.org/abs/2202.05930v1
- Date: Fri, 11 Feb 2022 23:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 12:23:55.406216
- Title: Detecting out-of-context objects using contextual cues
- Title(参考訳): context cuesを用いたコンテキスト外オブジェクトの検出
- Authors: Manoj Acharya, Anirban Roy, Kaushik Koneripalli, Susmit Jha,
Christopher Kanan, Ajay Divakaran
- Abstract要約: 画像中の文脈外(OOC)オブジェクトを検出するためのグラフコンテキスト推論ネットワーク(GCRN)を提案する。
GCRNは2つの別々のグラフで構成され、画像の文脈的手がかりに基づいてオブジェクトラベルを予測する。
GCRNはコンテキストキューを明示的にキャプチャして、コンテキスト内オブジェクトの検出を改善し、コンテキスト関係に違反するオブジェクトを識別する。
- 参考スコア(独自算出の注目度): 29.92843037720968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach to detect out-of-context (OOC) objects in an
image. Given an image with a set of objects, our goal is to determine if an
object is inconsistent with the scene context and detect the OOC object with a
bounding box. In this work, we consider commonly explored contextual relations
such as co-occurrence relations, the relative size of an object with respect to
other objects, and the position of the object in the scene. We posit that
contextual cues are useful to determine object labels for in-context objects
and inconsistent context cues are detrimental to determining object labels for
out-of-context objects. To realize this hypothesis, we propose a graph
contextual reasoning network (GCRN) to detect OOC objects. GCRN consists of two
separate graphs to predict object labels based on the contextual cues in the
image: 1) a representation graph to learn object features based on the
neighboring objects and 2) a context graph to explicitly capture contextual
cues from the neighboring objects. GCRN explicitly captures the contextual cues
to improve the detection of in-context objects and identify objects that
violate contextual relations. In order to evaluate our approach, we create a
large-scale dataset by adding OOC object instances to the COCO images. We also
evaluate on recent OCD benchmark. Our results show that GCRN outperforms
competitive baselines in detecting OOC objects and correctly detecting
in-context objects.
- Abstract(参考訳): 本稿では,画像中のOOC(out-of-context)オブジェクトを検出する手法を提案する。
オブジェクトの集合を持つ画像が与えられた場合、オブジェクトがシーンコンテキストと矛盾しているかどうかを判断し、境界ボックスでOOCオブジェクトを検出することが目的です。
本研究では,共起関係,他の対象に対する対象の相対的大きさ,場面における対象の位置などの文脈的関係について考察する。
文脈的手がかりは文脈内オブジェクトのオブジェクトラベルを決定するのに役立ち、一貫性のないコンテキスト的手がかりは文脈外オブジェクトのオブジェクトラベルを決定するのに役立ちます。
この仮説を実現するために,OOCオブジェクトを検出するグラフコンテキスト推論ネットワーク(GCRN)を提案する。
GCRNは2つの別々のグラフで構成され、画像の文脈的手がかりに基づいてオブジェクトラベルを予測する。
1)隣接するオブジェクトに基づいてオブジェクトの特徴を学習する表現グラフ
2) 隣接するオブジェクトからコンテキストキューを明示的にキャプチャするコンテキストグラフ。
GCRNはコンテキストキューを明示的にキャプチャして、コンテキスト内オブジェクトの検出を改善し、コンテキスト関係に違反するオブジェクトを識別する。
このアプローチを評価するため,COCO画像にOOCオブジェクトインスタンスを追加することで,大規模データセットを作成する。
また,最近のOCDベンチマークについても検討した。
以上の結果から,GCRNはOOCオブジェクトの検出やコンテキスト内オブジェクトの正確な検出において,競合ベースラインよりも優れていた。
関連論文リスト
- Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding [77.26626173589746]
文脈内接地に対する多視点的アプローチ(MAGiC)を提案する。
2つの類似したオブジェクトを区別する言語に基づくオブジェクト参照を選択する。
SNAREオブジェクト参照タスクの最先端モデルよりも、相対誤差を12.9%削減する。
論文 参考訳(メタデータ) (2023-11-12T00:21:58Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Automatic dataset generation for specific object detection [6.346581421948067]
本研究では,オブジェクトの詳細な特徴を,無関係な情報を得ることなく保存することができるオブジェクト・イン・シーン・イメージの合成手法を提案する。
その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。
論文 参考訳(メタデータ) (2022-07-16T07:44:33Z) - DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection [18.276823176045525]
本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-06-20T06:43:17Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。