論文の概要: Unsupervised Image Representation Learning with Deep Latent Particles
- arxiv url: http://arxiv.org/abs/2205.15821v1
- Date: Tue, 31 May 2022 14:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:30:30.874237
- Title: Unsupervised Image Representation Learning with Deep Latent Particles
- Title(参考訳): 深層粒子を用いた教師なし画像表現学習
- Authors: Tal Daniel and Aviv Tamar
- Abstract要約: 物体の位置を外見から切り離す視覚データの表現を提案する。
我々の手法はディープ潜時粒子 (DLP) と呼ばれ、低次元潜時粒子への視覚的入力を分解する。
- 参考スコア(独自算出の注目度): 27.256381759225896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new representation of visual data that disentangles object
position from appearance. Our method, termed Deep Latent Particles (DLP),
decomposes the visual input into low-dimensional latent ``particles'', where
each particle is described by its spatial location and features of its
surrounding region. To drive learning of such representations, we follow a
VAE-based approach and introduce a prior for particle positions based on a
spatial-softmax architecture, and a modification of the evidence lower bound
loss inspired by the Chamfer distance between particles. We demonstrate that
our DLP representations are useful for downstream tasks such as unsupervised
keypoint (KP) detection, image manipulation, and video prediction for scenes
composed of multiple dynamic objects. In addition, we show that our
probabilistic interpretation of the problem naturally provides uncertainty
estimates for particle locations, which can be used for model selection, among
other tasks. Videos and code are available:
https://taldatech.github.io/deep-latent-particles-web/
- Abstract(参考訳): 本稿では,物体の位置と外観を区別する視覚データの新たな表現法を提案する。
我々の手法はディープ潜時粒子 (DLP) と呼ばれ, 低次元潜時粒子に視覚的入力を分解し, それぞれの粒子が周囲の空間的位置と特徴によって記述される。
このような表現の学習を促進するために、VAEに基づくアプローチを踏襲し、空間ソフトマックスアーキテクチャに基づく粒子位置の先行を導入し、粒子間のチャムファー距離にインスパイアされた証拠の低い境界損失を補正する。
DLP表現は、教師なしキーポイント(KP)検出、画像操作、複数の動的オブジェクトからなるシーンの映像予測などの下流タスクに有用であることを示す。
さらに,問題に対する確率論的解釈により,モデル選択に使用可能な粒子位置の不確実性推定が自然に得られることを示した。
https://taldatech.github.io/deep-latent-particles-web/
関連論文リスト
- Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - DDLP: Unsupervised Object-Centric Video Prediction with Deep Dynamic
Latent Particles [29.349342719178306]
本稿では,深部潜伏粒子表現に基づくオブジェクト中心のビデオ予測アルゴリズムを提案する。
提案手法は,いくつかの課題のあるデータセットに対して,最先端のオブジェクト中心のビデオ予測結果を生成する。
論文 参考訳(メタデータ) (2023-06-09T15:17:13Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space [43.654464513994164]
高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-02-01T12:18:30Z) - Neural Point Light Fields [80.98651520818785]
本稿では,スパース点雲上に存在する光の場を暗黙的に表現するニューラルポイント光場について紹介する。
これらの点光場は、光線方向と局所点特徴近傍の関数として機能し、光場条件付きトレーニング画像を高密度の被写体とパララックスを介さずに補間することができる。
論文 参考訳(メタデータ) (2021-12-02T18:20:10Z) - Ab Initio Particle-based Object Manipulation [22.78939235155233]
粒子をベースとした物体操作(Prompt)は,新規物体のロボット操作における新しいアプローチである。
Promptはモデルベースの推論とデータ駆動学習の両方の利点を組み合わせたものだ。
Promptは、さまざまな日常的なオブジェクトをうまく扱える。
論文 参考訳(メタデータ) (2021-07-19T13:27:00Z) - Space-time Neural Irradiance Fields for Free-Viewpoint Video [54.436478702701244]
本稿では,1つのビデオから動的シーンのニューラル照度場を学習する手法を提案する。
私たちの学習した表現は、入力ビデオのフリービューレンダリングを可能にします。
論文 参考訳(メタデータ) (2020-11-25T18:59:28Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。