論文の概要: Seeing the Unseen: Visual Common Sense for Semantic Placement
- arxiv url: http://arxiv.org/abs/2401.07770v1
- Date: Mon, 15 Jan 2024 15:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:50:19.516405
- Title: Seeing the Unseen: Visual Common Sense for Semantic Placement
- Title(参考訳): 見えないものを見る: 意味的な配置のためのビジュアルコモンセンス
- Authors: Ram Ramrakhya, Aniruddha Kembhavi, Dhruv Batra, Zsolt Kira, Kuo-Hao
Zeng, Luca Weihs
- Abstract要約: 画像が与えられたら、視覚システムは、その物体が置かれたり、人間によって配置される可能性がある画像の意味論的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、ロボットやARデバイス(ユーザーの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
- 参考スコア(独自算出の注目度): 71.76026880991245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision tasks typically involve describing what is present in an
image (e.g. classification, detection, segmentation, and captioning). We study
a visual common sense task that requires understanding what is not present.
Specifically, given an image (e.g. of a living room) and name of an object
("cushion"), a vision system is asked to predict semantically-meaningful
regions (masks or bounding boxes) in the image where that object could be
placed or is likely be placed by humans (e.g. on the sofa). We call this task:
Semantic Placement (SP) and believe that such common-sense visual understanding
is critical for assitive robots (tidying a house), and AR devices
(automatically rendering an object in the user's space). Studying the invisible
is hard. Datasets for image description are typically constructed by curating
relevant images and asking humans to annotate the contents of the image;
neither of those two steps are straightforward for objects not present in the
image. We overcome this challenge by operating in the opposite direction: we
start with an image of an object in context from web, and then remove that
object from the image via inpainting. This automated pipeline converts
unstructured web data into a dataset comprising pairs of images with/without
the object. Using this, we collect a novel dataset, with ${\sim}1.3$M images
across $9$ object categories, and train a SP prediction model called CLIP-UNet.
CLIP-UNet outperforms existing VLMs and baselines that combine semantic priors
with object detectors on real-world and simulated images. In our user studies,
we find that the SP masks predicted by CLIP-UNet are favored $43.7\%$ and
$31.3\%$ times when comparing against the $4$ SP baselines on real and
simulated images. In addition, we demonstrate leveraging SP mask predictions
from CLIP-UNet enables downstream applications like building tidying robots in
indoor environments.
- Abstract(参考訳): コンピュータビジョンのタスクは通常、画像に何が存在するかを記述する(分類、検出、セグメンテーション、キャプションなど)。
私たちは、存在しないものを理解する必要がある視覚的な常識のタスクを研究します。
具体的には、画像(例えば、リビングルーム)と物体の名前(「カション」)が与えられたとき、視覚システムは、その物体が人間によって置かれる可能性がある画像(例えば、ソファー)において意味的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、補助ロボットやARデバイス(ユーザの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
目に見えないものの研究は難しい。
画像記述のためのデータセットは、通常、関連する画像をキュレートし、人間に画像の内容に注釈をつけるように要求することで構築される。
私たちは、webからコンテキスト内のオブジェクトのイメージから始めて、そのオブジェクトをインペインティングによってイメージから削除します。
この自動パイプラインは、構造化されていないWebデータを、オブジェクトとの対のイメージからなるデータセットに変換する。
これを用いて、9ドルのオブジェクトカテゴリにわたる${\sim}1.3$Mのイメージを持つ新しいデータセットを収集し、CLIP-UNetと呼ばれるSP予測モデルをトレーニングする。
CLIP-UNetは既存のVLMとベースラインを上回り、実世界やシミュレーション画像上のオブジェクト検出器とセマンティックプリエントを組み合わせている。
私たちのユーザ調査では、CLIP-UNetによって予測されたSPマスクは、実画像とシミュレートされた画像の4ドルSPベースラインと比較すると、43.7\%と311.3\%の値が好まれている。
さらに,CLIP-UNetのSPマスク予測を活用することで,屋内環境におけるティディリングロボット構築などの下流アプリケーションを実現する。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Are These the Same Apple? Comparing Images Based on Object Intrinsics [27.43687450076182]
オブジェクトの同一性を定義する固有のオブジェクトプロパティに基づいて、純粋に画像の類似性を測定する。
この問題はコンピュータビジョン文学において再同定として研究されている。
そこで本研究では,オブジェクト固有性に基づく画像類似度尺度を探索し,一般対象カテゴリに拡張することを提案する。
論文 参考訳(メタデータ) (2023-11-01T18:00:03Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Action Image Representation: Learning Scalable Deep Grasping Policies
with Zero Real World Data [12.554739620645917]
Action Imageは画像としてグリップの提案を表し、深い畳み込みネットワークを使用してグリップ品質を推測する。
この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。
論文 参考訳(メタデータ) (2020-05-13T21:40:21Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。