論文の概要: OPDMulti: Openable Part Detection for Multiple Objects
- arxiv url: http://arxiv.org/abs/2303.14087v1
- Date: Fri, 24 Mar 2023 15:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:03:50.079343
- Title: OPDMulti: Openable Part Detection for Multiple Objects
- Title(参考訳): OPDMulti: 複数のオブジェクトに対するオープンな部分検出
- Authors: Xiaohao Sun, Hanxiao Jiang, Manolis Savva, Angel Xuan Chang
- Abstract要約: 開部検出は、単一ビュー画像中のオブジェクトの開部を検出するタスクである。
我々は,このタスクを複数のオブジェクトを持つシーンに一般化し,実世界のシーンに基づいて対応するデータセットを作成する。
実験の結果,OPDFormerアーキテクチャは従来よりも大幅に優れていたことがわかった。
- 参考スコア(独自算出の注目度): 9.738426336815113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Openable part detection is the task of detecting the openable parts of an
object in a single-view image, and predicting corresponding motion parameters.
Prior work investigated the unrealistic setting where all input images only
contain a single openable object. We generalize this task to scenes with
multiple objects each potentially possessing openable parts, and create a
corresponding dataset based on real-world scenes. We then address this more
challenging scenario with OPDFormer: a part-aware transformer architecture. Our
experiments show that the OPDFormer architecture significantly outperforms
prior work. The more realistic multiple-object scenarios we investigated remain
challenging for all methods, indicating opportunities for future work.
- Abstract(参考訳): 開部検出は、単視点画像中の物体の開部を検出し、対応する運動パラメータを予測するタスクである。
以前の研究は、全ての入力画像が単一のオープンなオブジェクトのみを含む非現実的な設定を調査した。
我々は,このタスクを複数のオブジェクトを持つシーンに一般化し,実世界のシーンに基づいて対応するデータセットを作成する。
次に、このより困難なシナリオに、OPDFormer:part-aware transformerアーキテクチャを使って対処します。
私たちの実験では、opdformerアーキテクチャが以前の作業を大幅に上回っています。
私たちが調査したより現実的なマルチオブジェクトシナリオは、将来的な仕事の機会を示しながら、すべてのメソッドで難しいままです。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - AssetField: Assets Mining and Reconfiguration in Ground Feature Plane
Representation [111.59786941545774]
AssetFieldは、新しいニューラルシーン表現で、シーンを表現するためにオブジェクト対応のグラウンド特徴面のセットを学習する。
AssetFieldは、新しいシーン構成のためのリアルなレンダリングを生成するとともに、新規ビュー合成のための競争性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T12:18:10Z) - Scene-level Tracking and Reconstruction without Object Priors [14.068026331380844]
本研究では,各シーンにおける可視物体の追跡と再構成を行うことのできる,初めてのリアルタイムシステムを提案する。
提案システムでは,新しいシーンにおける全可視物体のライブな形状と変形をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2022-10-07T20:56:14Z) - OPD: Single-view 3D Openable Part Detection [20.17537159013785]
オブジェクトのどの部分が開くのか、どのように動くのかを予測するタスクに対処する。
入力はオブジェクトの1つのイメージであり、出力として、オブジェクトのどの部分が開き得るか、そして各開き可能な部分の関節を記述する運動パラメータを検出する。
次に、オープンな部分を検出し、その動作パラメータを予測するニューラルネットワークであるPDRCNNを設計する。
論文 参考訳(メタデータ) (2022-03-30T16:02:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Addressing Multiple Salient Object Detection via Dual-Space Long-Range
Dependencies [3.8824028205733017]
正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。
空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。
複雑なシナリオであっても,本手法は複数の有能な領域を正確に特定できることを示す。
論文 参考訳(メタデータ) (2021-11-04T23:16:53Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。