論文の概要: From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2602.03390v1
- Date: Tue, 03 Feb 2026 11:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.408735
- Title: From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning
- Title(参考訳): 活気から活気へ:教師なしビデオ中心学習のための相乗的表現学習
- Authors: Hyun Seok Seong, WonJun Moon, Jae-Pil Heo,
- Abstract要約: 我々は、エンコーダとデコーダが相互に相互に洗練されるような活発なサイクルを導入する。
エンコーダとデコーダの間の表現的ギャップを埋めることで、SRLはビデオオブジェクト中心の学習ベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 45.1920794546889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised object-centric learning models, particularly slot-based architectures, have shown great promise in decomposing complex scenes. However, their reliance on reconstruction-based training creates a fundamental conflict between the sharp, high-frequency attention maps of the encoder and the spatially consistent but blurry reconstruction maps of the decoder. We identify that this discrepancy gives rise to a vicious cycle: the noisy feature map from the encoder forces the decoder to average over possibilities and produce even blurrier outputs, while the gradient computed from blurry reconstruction maps lacks high-frequency details necessary to supervise encoder features. To break this cycle, we introduce Synergistic Representation Learning (SRL) that establishes a virtuous cycle where the encoder and decoder mutually refine one another. SRL leverages the encoder's sharpness to deblur the semantic boundary within the decoder output, while exploiting the decoder's spatial consistency to denoise the encoder's features. This mutual refinement process is stabilized by a warm-up phase with a slot regularization objective that initially allocates distinct entities per slot. By bridging the representational gap between the encoder and decoder, SRL achieves state-of-the-art results on video object-centric learning benchmarks. Codes are available at https://github.com/hynnsk/SRL.
- Abstract(参考訳): 教師なしのオブジェクト中心学習モデル、特にスロットベースのアーキテクチャは、複雑なシーンを分解する大きな可能性を示してきた。
しかし、その再構成に基づくトレーニングへの依存は、エンコーダのシャープで高周波のアテンションマップとデコーダの空間的に一貫性があるが、ぼやけた再構築マップとの根本的な矛盾を生じさせる。
エンコーダからのノイズの多い特徴写像は、デコーダを平均的な確率で強制し、ぼやけた出力を発生させ、一方、ぼやけた再構成マップから計算された勾配は、エンコーダの特徴を監督するために必要な高周波の詳細を欠いている。
このサイクルを打破するために、私たちは、エンコーダとデコーダが相互に洗練する活発なサイクルを確立するSynergistic Representation Learning (SRL)を導入します。
SRLはエンコーダのシャープさを利用してデコーダ出力内のセマンティック境界を曖昧にし、デコーダの空間的一貫性を利用してエンコーダの特徴を識別する。
この相互改善プロセスは、当初スロット毎に異なるエンティティを割り当てるスロット正規化目標を有するウォームアップフェーズによって安定化される。
エンコーダとデコーダの間の表現的ギャップを埋めることで、SRLはビデオオブジェクト中心の学習ベンチマークで最先端の結果を得る。
コードはhttps://github.com/hynnsk/SRL.comで公開されている。
関連論文リスト
- Improving Reconstruction of Representation Autoencoder [52.817427902597416]
低レベル情報を欠いた意味的特徴を増強する表現オートエンコーダLV-RAEを提案する。
実験により,LV-RAEは意味的抽象化を保ちながら,再構成の忠実度を著しく向上することが示された。
論文 参考訳(メタデータ) (2026-02-09T13:12:35Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Hybrid Autoencoders for Tabular Data: Leveraging Model-Based Augmentation in Low-Label Settings [13.591018807414484]
本稿では,ニューラルエンコーダと難解なソフト決定木(OSDT)エンコーダを組み合わせたハイブリッドオートエンコーダを提案する。
提案手法は,多種多様なデータセットにまたがる低ラベル分類と回帰において一貫した向上を実現し,深部および木に基づく教師付きベースラインを向上する。
論文 参考訳(メタデータ) (2025-11-10T11:08:39Z) - SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - A Revisit to the Decoder for Camouflaged Object Detection [34.886607866949845]
カモフラージュされたオブジェクト検出(COD)は、背景に隠されたカモフラージュされたオブジェクトのきめ細かいセグメンテーションマップを作成することを目的としている。
本稿では,CODにおける一般的なデコード戦略をエンリッチ・デコーダとリタッチ・デコーダで拡張する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-18T08:51:50Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。