論文の概要: Explicitly Disentangled Representations in Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2401.10148v1
- Date: Thu, 18 Jan 2024 17:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:48:44.578719
- Title: Explicitly Disentangled Representations in Object-Centric Learning
- Title(参考訳): オブジェクト中心学習における明示的アンタングル表現
- Authors: Riccardo Majellaro, Jonathan Collu, Aske Plaat, Thomas M. Moerland
- Abstract要約: 本稿では, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
特に, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting structured representations from raw visual data is an important
and long-standing challenge in machine learning. Recently, techniques for
unsupervised learning of object-centric representations have raised growing
interest. In this context, enhancing the robustness of the latent features can
improve the efficiency and effectiveness of the training of downstream tasks. A
promising step in this direction is to disentangle the factors that cause
variation in the data. Previously, Invariant Slot Attention disentangled
position, scale, and orientation from the remaining features. Extending this
approach, we focus on separating the shape and texture components. In
particular, we propose a novel architecture that biases object-centric models
toward disentangling shape and texture components into two non-overlapping
subsets of the latent space dimensions. These subsets are known a priori, hence
before the training process. Experiments on a range of object-centric
benchmarks reveal that our approach achieves the desired disentanglement while
also numerically improving baseline performance in most cases. In addition, we
show that our method can generate novel textures for a specific object or
transfer textures between objects with distinct shapes.
- Abstract(参考訳): 生の視覚データから構造化表現を抽出することは、機械学習における重要かつ長年にわたる課題である。
近年,オブジェクト中心表現の教師なし学習技術が注目されている。
この文脈では、潜在機能の堅牢性を高めることによって、下流タスクのトレーニングの効率と効率が向上する。
この方向への有望なステップは、データの変化を引き起こす要因を分離することだ。
以前は、Invariant Slot Attentionは残りの特徴から位置、スケール、方向を歪めていた。
このアプローチを拡張して、形状とテクスチャコンポーネントの分離にフォーカスします。
特に,物体中心モデルに対して,形状やテクスチャ成分を潜在空間次元の重複しない2つの部分集合に分離する新しいアーキテクチャを提案する。
これらのサブセットは、トレーニングプロセスの前にプリオリとして知られています。
対象中心のベンチマーク実験により,提案手法は所望の絡み合いを達成し,ほとんどの場合,ベースライン性能を数値的に向上させる。
また, 特定の物体に対して新たなテクスチャを生成したり, 異なる形状の物体間でテクスチャを転送したりできることを示した。
関連論文リスト
- Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers [11.155818952879146]
最近の研究は、オブジェクト中心の表現が学習力学の精度を大幅に向上させることを示した。
対象中心モデルにおける視覚力学予測の精度をさらに向上することは可能か?
我々は、オブジェクトが持つ可能性のある属性の種類について、具体的な仮定をすることなく、静的なイメージ citepnsb の場合のこのような非絡み合い表現を学習しようと試みる。
論文 参考訳(メタデータ) (2024-07-03T15:43:54Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。