論文の概要: Object Learning and Robust 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2504.17812v1
- Date: Tue, 22 Apr 2025 21:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.507452
- Title: Object Learning and Robust 3D Reconstruction
- Title(参考訳): 物体学習とロバスト3次元再構成
- Authors: Sara Sabour,
- Abstract要約: 本稿では,ニューラルネットワークのアーキテクチャ設計とトレーニング手法について論じる。
FlowCapsulesは2Dシナリオに関心のあるオブジェクトのキューとしてモーションを使用する。
我々は3次元のシーンの幾何的整合性を利用して不整合な動的物体を検出する。
- 参考スコア(独自算出の注目度): 7.092348056331202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this thesis we discuss architectural designs and training methods for a neural network to have the ability of dissecting an image into objects of interest without supervision. The main challenge in 2D unsupervised object segmentation is distinguishing between foreground objects of interest and background. FlowCapsules uses motion as a cue for the objects of interest in 2D scenarios. The last part of this thesis focuses on 3D applications where the goal is detecting and removal of the object of interest from the input images. In these tasks, we leverage the geometric consistency of scenes in 3D to detect the inconsistent dynamic objects. Our transient object masks are then used for designing robust optimization kernels to improve 3D modelling in a casual capture setup. One of our goals in this thesis is to show the merits of unsupervised object based approaches in computer vision. Furthermore, we suggest possible directions for defining objects of interest or foreground objects without requiring supervision. Our hope is to motivate and excite the community into further exploring explicit object representations in image understanding tasks.
- Abstract(参考訳): 本稿では,ニューラルネットワークのアーキテクチャ設計とトレーニング手法について論じる。
2次元教師なしオブジェクトセグメンテーションの主な課題は、関心と背景の前のオブジェクトを区別することである。
FlowCapsulesは2Dシナリオに関心のあるオブジェクトのキューとしてモーションを使用する。
この論文の最後の部分は、入力画像から興味の対象を検出し、除去することを目的としている3Dアプリケーションに焦点を当てている。
これらの課題では,3次元のシーンの幾何的整合性を利用して不整合な動的物体を検出する。
次に、過渡的なオブジェクトマスクを用いて、ロバストな最適化カーネルを設計し、カジュアルなキャプチャ設定で3Dモデリングを改善する。
この論文の目標の1つは、コンピュータビジョンにおける教師なしオブジェクトベースアプローチのメリットを示すことである。
さらに,関心対象や前景対象を定義する上で,監督を必要とせず,可能な方向を提案する。
私たちの希望は、イメージ理解タスクにおける明示的なオブジェクト表現をさらに探求するために、コミュニティをモチベーションし、興奮させることです。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - LaTeRF: Label and Text Driven Object Radiance Fields [8.191404990730236]
シーン全体と既知のカメラポーズの2次元画像から興味の対象を抽出するLaTeRFを提案する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を3Dポイントごとに追加のオブジェクト性確率で拡張する。
合成データと実データの両方で高忠実度オブジェクト抽出を実証する。
論文 参考訳(メタデータ) (2022-07-04T17:07:57Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ
Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか?
単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文 参考訳(メタデータ) (2021-08-05T16:20:12Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。