論文の概要: 2.5D Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2104.12727v1
- Date: Mon, 26 Apr 2021 17:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 17:56:57.335211
- Title: 2.5D Visual Relationship Detection
- Title(参考訳): 2.5次元視覚関係検出
- Authors: Yu-Chuan Su, Soravit Changpinyo, Xiangning Chen, Sathish Thoppay,
Cho-Jui Hsieh, Lior Shapira, Radu Soricut, Hartwig Adam, Matthew Brown,
Ming-Hsuan Yang, Boqing Gong
- Abstract要約: 2.5D視覚関係検出(2.5VRD)に関する研究
一般的なVRDとは異なり、2.5VRDは自我中心であり、カメラの視点をすべての2.5D関係の共通参照として利用する。
1k画像から512kオブジェクト間の220kの2.5d関係からなる新しいデータセットを作成する。
- 参考スコア(独自算出の注目度): 142.69699509655428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual 2.5D perception involves understanding the semantics and geometry of a
scene through reasoning about object relationships with respect to the viewer
in an environment. However, existing works in visual recognition primarily
focus on the semantics. To bridge this gap, we study 2.5D visual relationship
detection (2.5VRD), in which the goal is to jointly detect objects and predict
their relative depth and occlusion relationships. Unlike general VRD, 2.5VRD is
egocentric, using the camera's viewpoint as a common reference for all 2.5D
relationships. Unlike depth estimation, 2.5VRD is object-centric and not only
focuses on depth. To enable progress on this task, we create a new dataset
consisting of 220k human-annotated 2.5D relationships among 512K objects from
11K images. We analyze this dataset and conduct extensive experiments including
benchmarking multiple state-of-the-art VRD models on this task. Our results
show that existing models largely rely on semantic cues and simple heuristics
to solve 2.5VRD, motivating further research on models for 2.5D perception. The
new dataset is available at https://github.com/google-research-datasets/2.5vrd.
- Abstract(参考訳): 視覚的2.5D知覚は、環境におけるビューアーに対するオブジェクトの関係について推論することで、シーンの意味と幾何学を理解することを含む。
しかし、視覚認識における既存の研究は主に意味論に焦点を当てている。
このギャップを埋めるために、2.5次元視覚的関係検出(2.5VRD)について検討し、対象を共同で検出し、相対的な深さと閉塞関係を予測する。
一般的なVRDとは異なり、2.5VRDは自我中心であり、カメラの視点をすべての2.5D関係の共通参照として利用する。
深さ推定とは異なり、2.5VRDは対象中心であり、深さのみに焦点を当てるものではない。
1K画像から512Kオブジェクト間の220kの人間アノテーションによる2.5D関係からなる新しいデータセットを作成する。
このデータセットを分析し、このタスク上で複数の最先端VRDモデルのベンチマークを含む広範な実験を行う。
以上の結果から,既存のモデルは2.5VRDを解くための意味的手がかりと単純なヒューリスティックに大きく依存していることが示唆された。
新しいデータセットはhttps://github.com/google-research-datasets/2.5vrdで入手できる。
関連論文リスト
- Interpretable Action Recognition on Hard to Classify Actions [11.641926922266347]
人間は、明確に認識された物体と部分の間の批判的時間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
オブジェクトの形状情報を既存のオブジェクトの特徴に統合するために,“Container”と“NotContainer”の違いを決定するために,最先端のオブジェクト検出モデルを微調整した。
論文 参考訳(メタデータ) (2024-09-19T21:23:44Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - 4D Unsupervised Object Discovery [53.561750858325915]
本研究では,3次元点雲と2次元RGB画像の時間的情報を用いた4次元データからオブジェクトを共同で検出する4次元非教師対象探索を提案する。
本稿では,2次元ローカライゼーションネットワークで協調的に最適化された3次元点雲上にClusterNetを提案することで,この課題に対する最初の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-10T16:05:53Z) - Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose Estimation [45.06447187321217]
既存のボトムアップ手法のほとんどは、カメラ中心の人間のポーズ推定を2つの無関係なサブタスクとして扱う。
両サブタスクの相互利益を利用する統一モデルを提案する。
私たちのモデルは、既存のボトムアップメソッドやトップダウンメソッドよりもはるかに高速に動作します。
論文 参考訳(メタデータ) (2022-07-16T10:54:40Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。