論文の概要: Contrastive Training of Complex-Valued Autoencoders for Object Discovery
- arxiv url: http://arxiv.org/abs/2305.15001v3
- Date: Thu, 9 Nov 2023 13:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:25:40.944859
- Title: Contrastive Training of Complex-Valued Autoencoders for Object Discovery
- Title(参考訳): オブジェクト発見のための複素値オートエンコーダのコントラストトレーニング
- Authors: Aleksandar Stani\'c, Anand Gopalakrishnan, Kazuki Irie, J\"urgen
Schmidhuber
- Abstract要約: アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
- 参考スコア(独自算出の注目度): 55.280789409319716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art object-centric models use slots and attention-based
routing for binding. However, this class of models has several conceptual
limitations: the number of slots is hardwired; all slots have equal capacity;
training has high computational cost; there are no object-level relational
factors within slots. Synchrony-based models in principle can address these
limitations by using complex-valued activations which store binding information
in their phase components. However, working examples of such synchrony-based
models have been developed only very recently, and are still limited to toy
grayscale datasets and simultaneous storage of less than three objects in
practice. Here we introduce architectural modifications and a novel contrastive
learning method that greatly improve the state-of-the-art synchrony-based
model. For the first time, we obtain a class of synchrony-based models capable
of discovering objects in an unsupervised manner in multi-object color datasets
and simultaneously representing more than three objects.
- Abstract(参考訳): 現在の最先端のオブジェクト中心モデルは、バインディングにスロットと注意に基づくルーティングを使用する。
しかしながら、このモデルのクラスにはいくつかの概念的な制限がある: スロットの数はハードワイヤであり、全てのスロットは同等の容量を持ち、訓練は高い計算コストを持ち、スロット内にオブジェクトレベルの関係因子は存在しない。
同期ベースのモデルは、それらの相成分に結合情報を格納する複雑な値のアクティベーションを使用することで、これらの制限に対処することができる。
しかし、このような同期ベースのモデルの動作例はごく最近まで開発されており、まだおもちゃのグレースケールデータセットと3つ未満のオブジェクトの同時保存に限られている。
ここでは,最新の同期モデルを大幅に改善する,アーキテクチャ修正と新しいコントラスト学習手法を紹介する。
マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見でき、3つ以上のオブジェクトを同時に表現できる同期ベースモデルのクラスを初めて得る。
関連論文リスト
- MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。
単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。
マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-01-06T17:43:26Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - CerberusDet: Unified Multi-Dataset Object Detection [0.0]
CerberusDetは、複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを持つフレームワークである。
提案されたモデルはYOLOアーキテクチャ上に構築され、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有する。
CerberusDetは36%の推論時間で最先端の結果を得た。
論文 参考訳(メタデータ) (2024-07-17T15:00:35Z) - Recurrent Complex-Weighted Autoencoders for Unsupervised Object Discovery [62.43562856605473]
複雑な重み付き再帰的アーキテクチャの計算上の優位性について論じる。
本稿では,反復的制約満足度を実現する完全畳み込みオートエンコーダSynCxを提案する。
論文 参考訳(メタデータ) (2024-05-27T15:47:03Z) - Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。
Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文 参考訳(メタデータ) (2024-01-08T21:19:30Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Federated Action Recognition on Heterogeneous Embedded Devices [16.88104153104136]
本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。
我々はまず,大規模なデータセットの知識蒸留を通じて,中央サーバでモデル圧縮を行う。
より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時間的特徴を学習するのに十分なものではないため、微調整が必要である。
論文 参考訳(メタデータ) (2021-07-18T02:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。