論文の概要: Structured Query-Based Image Retrieval Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2005.06653v1
- Date: Wed, 13 May 2020 22:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 12:42:17.083702
- Title: Structured Query-Based Image Retrieval Using Scene Graphs
- Title(参考訳): シーングラフを用いた構造化クエリに基づく画像検索
- Authors: Brigit Schroeder, Subarna Tripathi
- Abstract要約: 本稿では,シーングラフの埋め込みを画像検索のアプローチの基盤として利用する手法を提案する。
長い尾を持つCOCO-Stuffデータセットに見られる低・中頻度のオブジェクトでも高いリコールを実現することができる。
- 参考スコア(独自算出の注目度): 10.475553340127394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A structured query can capture the complexity of object interactions (e.g.
'woman rides motorcycle') unlike single objects (e.g. 'woman' or 'motorcycle').
Retrieval using structured queries therefore is much more useful than single
object retrieval, but a much more challenging problem. In this paper we present
a method which uses scene graph embeddings as the basis for an approach to
image retrieval. We examine how visual relationships, derived from scene
graphs, can be used as structured queries. The visual relationships are
directed subgraphs of the scene graph with a subject and object as nodes
connected by a predicate relationship. Notably, we are able to achieve high
recall even on low to medium frequency objects found in the long-tailed
COCO-Stuff dataset, and find that adding a visual relationship-inspired loss
boosts our recall by 10% in the best case.
- Abstract(参考訳): 構造化クエリは、単一のオブジェクト(例えば「woman」や「motorcycle」)と異なり、オブジェクトインタラクションの複雑さ(例えば「woman ride motorcycle」)をキャプチャできる。
したがって、構造化クエリを用いた検索は、単一のオブジェクト検索よりもはるかに有用であるが、より難しい問題である。
本稿では,画像検索手法の基盤としてシーングラフ埋め込みを用いる手法を提案する。
本研究では,シーングラフから得られる視覚的関係を構造化クエリとして利用する方法について検討する。
視覚的関係は、主観と対象を述語関係で接続されたノードとするシーングラフの有向部分グラフである。
特に、長い尾のCOCO-Stuffデータセットにある低-中頻度のオブジェクトでも高いリコールを達成でき、視覚的リレーションにインスパイアされた損失を追加することで、ベストケースではリコールを10%向上させることができる。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - ViRel: Unsupervised Visual Relations Discovery with Graph-level Analogy [65.5580334698777]
ViRelは、グラフレベルのアナロジーを用いた視覚関係の教師なし発見と学習のための方法である。
本研究では,関係分類において95%以上の精度を達成できることを示す。
さらに、より複雑な関係構造を持つ未確認タスクに一般化する。
論文 参考訳(メタデータ) (2022-07-04T16:56:45Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Learning to Compose Visual Relations [100.45138490076866]
我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:51:29Z) - Few-shot Visual Relationship Co-localization [1.4130726713527195]
画像の袋に共通だが潜在的な述語を含む画像が与えられた場合、各画像の共通述語を介して接続された視覚的対象物対の局在化に興味がある。
バッグの各画像に共通する視覚的関係を選択するための最適化フレームワークを提案する。
2つの挑戦的な公開データセットから得られたバッグサイズの変化について,提案手法を広範囲に評価した。
論文 参考訳(メタデータ) (2021-08-26T07:19:57Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。