論文の概要: Few-shot Visual Relationship Co-localization
- arxiv url: http://arxiv.org/abs/2108.11618v1
- Date: Thu, 26 Aug 2021 07:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:16:02.214702
- Title: Few-shot Visual Relationship Co-localization
- Title(参考訳): 視覚的関係のコローカライゼーション
- Authors: Revant Teotia, Vaibhav Mishra, Mayank Maheshwari, Anand Mishra
- Abstract要約: 画像の袋に共通だが潜在的な述語を含む画像が与えられた場合、各画像の共通述語を介して接続された視覚的対象物対の局在化に興味がある。
バッグの各画像に共通する視覚的関係を選択するための最適化フレームワークを提案する。
2つの挑戦的な公開データセットから得られたバッグサイズの変化について,提案手法を広範囲に評価した。
- 参考スコア(独自算出の注目度): 1.4130726713527195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, given a small bag of images, each containing a common but
latent predicate, we are interested in localizing visual subject-object pairs
connected via the common predicate in each of the images. We refer to this
novel problem as visual relationship co-localization or VRC as an abbreviation.
VRC is a challenging task, even more so than the well-studied object
co-localization task. This becomes further challenging when using just a few
images, the model has to learn to co-localize visual subject-object pairs
connected via unseen predicates. To solve VRC, we propose an optimization
framework to select a common visual relationship in each image of the bag. The
goal of the optimization framework is to find the optimal solution by learning
visual relationship similarity across images in a few-shot setting. To obtain
robust visual relationship representation, we utilize a simple yet effective
technique that learns relationship embedding as a translation vector from
visual subject to visual object in a shared space. Further, to learn visual
relationship similarity, we utilize a proven meta-learning technique commonly
used for few-shot classification tasks. Finally, to tackle the combinatorial
complexity challenge arising from an exponential number of feasible solutions,
we use a greedy approximation inference algorithm that selects approximately
the best solution.
We extensively evaluate our proposed framework on variations of bag sizes
obtained from two challenging public datasets, namely VrR-VG and VG-150, and
achieve impressive visual co-localization performance.
- Abstract(参考訳): 本稿では,画像の小さな袋が共通だが潜在的な述語を含むことを前提として,各画像の共通述語を介して接続された視覚的対象物対の局在化に関心がある。
この問題を視覚関係共局在 (visual relationship co-localization) またはvrc (vrc) と呼ぶ。
VRCは、よく研究されているオブジェクトのコローカライゼーションタスクよりも難しいタスクです。
これは、ほんの数枚の画像を使用するとさらに困難になる。このモデルは、目に見えない述語を通して接続された視覚的対象物対をコローカライズすることを学ぶ必要がある。
vrcを解決するために,バッグの各画像で共通の視覚関係を選択する最適化フレームワークを提案する。
最適化フレームワークの目標は、画像間の視覚的な類似性を学ぶことで、ほんの数ショット設定で最適なソリューションを見つけることである。
頑健な視覚的関係表現を得るために,視覚的対象から視覚的対象への変換ベクトルとして関係埋め込みを学習する,シンプルで効果的な手法を用いる。
さらに,視覚的関係の類似性を学習するために,数発の分類タスクによく用いられるメタラーニング手法を用いる。
最後に,探索可能な解の指数関数的な数から生じる組合せ複雑性問題に取り組むために,約最良解を選択する欲望近似推論アルゴリズムを用いる。
提案手法は,VrR-VGとVG-150という2つの課題のある公開データセットから得られるバッグサイズの変化を網羅的に評価し,視覚的コローカライズ性能を実現する。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。