論文の概要: Boosting Object Representation Learning via Motion and Object Continuity
- arxiv url: http://arxiv.org/abs/2211.09771v2
- Date: Wed, 20 Sep 2023 10:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 00:46:50.844331
- Title: Boosting Object Representation Learning via Motion and Object Continuity
- Title(参考訳): 運動とオブジェクト連続性によるオブジェクト表現学習の促進
- Authors: Quentin Delfosse, Wolfgang Stammer, Thomas Rothenbacher, Dwarak
Vittal, Kristian Kersting
- Abstract要約: 物体の動きと連続性、すなわち、物体が存在の内外に現れないことを活用することを提案する。
結果のMotion and Object Continuityスキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。
その結果,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現の観点から,SOTAモデルの性能に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 22.512380611375846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent unsupervised multi-object detection models have shown impressive
performance improvements, largely attributed to novel architectural inductive
biases. Unfortunately, they may produce suboptimal object encodings for
downstream tasks. To overcome this, we propose to exploit object motion and
continuity, i.e., objects do not pop in and out of existence. This is
accomplished through two mechanisms: (i) providing priors on the location of
objects through integration of optical flow, and (ii) a contrastive object
continuity loss across consecutive image frames. Rather than developing an
explicit deep architecture, the resulting Motion and Object Continuity (MOC)
scheme can be instantiated using any baseline object detection model. Our
results show large improvements in the performances of a SOTA model in terms of
object discovery, convergence speed and overall latent object representations,
particularly for playing Atari games. Overall, we show clear benefits of
integrating motion and object continuity for downstream tasks, moving beyond
object representation learning based only on reconstruction.
- Abstract(参考訳): 最近の教師なしマルチオブジェクト検出モデルは印象的な性能改善を示しており、主に新しいアーキテクチャインダクティブバイアスに起因する。
残念なことに、下流タスクに最適なオブジェクトエンコーディングを生成する可能性がある。
これを克服するために,物体の運動と連続性,すなわち物体が出現・消滅しない状態を利用するように提案する。
これは2つのメカニズムによって達成される。
(i)光学的流れの統合による物体の位置の事前提供
(ii)連続した画像フレーム間のコントラストオブジェクト連続性損失。
明示的なディープアーキテクチャを開発するのではなく、結果のMotion and Object Continuity(MOC)スキームは、任意のベースラインオブジェクト検出モデルを使用してインスタンス化することができる。
この結果から,オブジェクト発見,収束速度,全般的な潜在オブジェクト表現,特にアタリゲームにおいて,SOTAモデルの性能は大幅に向上した。
全体として、下流タスクの動作とオブジェクト連続性を統合する利点は明らかであり、再構成のみに基づくオブジェクト表現学習を超えていく。
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。
AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文 参考訳(メタデータ) (2021-09-21T01:23:48Z) - Unsupervised Object-Based Transition Models for 3D Partially Observable
Environments [13.598250346370467]
このモデルは、ピクセルではなくオブジェクト構造表現のレベルでの損失を使用して、監視なしでエンドツーエンドでトレーニングされる。
時間とともにオブジェクトレベルの損失と正しいオブジェクトアライメントの組み合わせは、モデルが最先端のベースラインを上回ることを可能にします。
論文 参考訳(メタデータ) (2021-03-08T12:10:02Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。