Fugu-MT 論文翻訳(概要): Unsupervised Object Learning via Common Fate

論文の概要: Unsupervised Object Learning via Common Fate

arxiv url: http://arxiv.org/abs/2110.06562v1
Date: Wed, 13 Oct 2021 08:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 13:03:17.892082
Title: Unsupervised Object Learning via Common Fate
Title（参考訳）: Common Fateによる教師なしオブジェクト学習
Authors: Matthias Tangemann, Steffen Schneider, Julius von K\"ugelgen, Francesco Locatello, Peter Gehler, Thomas Brox, Matthias K\"ummerer, Matthias Bethge, Bernhard Sch\"olkopf
Abstract要約: ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
参考スコア（独自算出の注目度）: 53.73987395647328
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning generative object models from unlabelled videos is a long standing problem and required for causal scene modeling. We decompose this problem into three easier subtasks, and provide candidate solutions for each of them. Inspired by the Common Fate Principle of Gestalt Psychology, we first extract (noisy) masks of moving objects via unsupervised motion segmentation. Second, generative models are trained on the masks of the background and the moving objects, respectively. Third, background and foreground models are combined in a conditional "dead leaves" scene model to sample novel scene configurations where occlusions and depth layering arise naturally. To evaluate the individual stages, we introduce the Fishbowl dataset positioned between complex real-world scenes and common object-centric benchmarks of simplistic objects. We show that our approach allows learning generative models that generalize beyond the occlusions present in the input videos, and represent scenes in a modular fashion that allows sampling plausible scenes outside the training distribution by permitting, for instance, object numbers or densities not observed in the training set.
Abstract（参考訳）: ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。この問題を3つの簡単なサブタスクに分解し、それぞれに候補ソリューションを提供します。ゲシュタルト心理学の共通の運命原理に触発され、まず、教師なしの運動分節によって動く物体の(ノイズの多い)マスクを抽出する。第2に、生成モデルは、それぞれ背景のマスクと移動対象のマスクで訓練される。第3に、背景モデルと前景モデルが条件付き「死葉」シーンモデルに組み合わされ、閉塞層と深さ層が自然に発生する新しいシーン構成をサンプリングする。個々のステージを評価するために、複雑な実世界のシーンと単純なオブジェクトの共通のオブジェクト中心ベンチマークの間に位置するfishbowlデータセットを紹介する。提案手法は,入力ビデオに含まれるオクルージョンを超えて一般化された生成モデルを学習し,トレーニングセットにないオブジェクト数や密度を許容することにより,トレーニング配信外の可視シーンをサンプリングするモジュール方式でシーンを表現可能であることを示す。

関連論文リスト

Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文参考訳（メタデータ） (2024-06-11T20:34:10Z)
CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation [42.475807996071175]
制御可能で合成可能なビデオ生成のための教師なしのアプローチを導入する。私たちのモデルは、注釈のないビデオのデータセットをスクラッチからトレーニングしています。空間と時間の所望の場所にオブジェクトを配置することで、可愛らしい斬新なシーンを作成し、オブジェクトをアニメーション化することができる。
論文参考訳（メタデータ） (2024-03-21T12:50:15Z)
Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T03:09:20Z)
Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文参考訳（メタデータ） (2022-03-20T13:06:15Z)
Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。 NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文参考訳（メタデータ） (2022-02-24T01:31:29Z)
Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文参考訳（メタデータ） (2021-11-24T16:10:46Z)
Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文参考訳（メタデータ） (2021-04-12T11:37:23Z)
GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文参考訳（メタデータ） (2020-11-24T14:14:15Z)
Towards causal generative scene models via competition of experts [26.181132737834826]
生成モデル(エキスパート)のアンサンブルを訓練することでモジュラリティを促進させる帰納的バイアスを用いた代替手法を提案する。トレーニング中、専門家はシーンの一部を説明するために競い合い、それによって異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として認識される。我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
論文参考訳（メタデータ） (2020-04-27T16:10:04Z)
Object-Centric Image Generation with Factored Depths, Locations, and Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文参考訳（メタデータ） (2020-04-01T18:00:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。