Fugu-MT 論文翻訳(概要): Contrastive Training of Complex-Valued Autoencoders for Object Discovery

論文の概要: Contrastive Training of Complex-Valued Autoencoders for Object Discovery

arxiv url: http://arxiv.org/abs/2305.15001v3
Date: Thu, 9 Nov 2023 13:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-10 18:25:40.944859
Title: Contrastive Training of Complex-Valued Autoencoders for Object Discovery
Title（参考訳）: オブジェクト発見のための複素値オートエンコーダのコントラストトレーニング
Authors: Aleksandar Stani\'c, Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber
Abstract要約: アーキテクチャの変更と、最先端の同期モデルを大幅に改善する新しいコントラスト学習手法を導入する。マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見できる同期ベースモデルのクラスを初めて取得する。
参考スコア（独自算出の注目度）: 55.280789409319716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current state-of-the-art object-centric models use slots and attention-based routing for binding. However, this class of models has several conceptual limitations: the number of slots is hardwired; all slots have equal capacity; training has high computational cost; there are no object-level relational factors within slots. Synchrony-based models in principle can address these limitations by using complex-valued activations which store binding information in their phase components. However, working examples of such synchrony-based models have been developed only very recently, and are still limited to toy grayscale datasets and simultaneous storage of less than three objects in practice. Here we introduce architectural modifications and a novel contrastive learning method that greatly improve the state-of-the-art synchrony-based model. For the first time, we obtain a class of synchrony-based models capable of discovering objects in an unsupervised manner in multi-object color datasets and simultaneously representing more than three objects.
Abstract（参考訳）: 現在の最先端のオブジェクト中心モデルは、バインディングにスロットと注意に基づくルーティングを使用する。しかしながら、このモデルのクラスにはいくつかの概念的な制限がある: スロットの数はハードワイヤであり、全てのスロットは同等の容量を持ち、訓練は高い計算コストを持ち、スロット内にオブジェクトレベルの関係因子は存在しない。同期ベースのモデルは、それらの相成分に結合情報を格納する複雑な値のアクティベーションを使用することで、これらの制限に対処することができる。しかし、このような同期ベースのモデルの動作例はごく最近まで開発されており、まだおもちゃのグレースケールデータセットと3つ未満のオブジェクトの同時保存に限られている。ここでは,最新の同期モデルを大幅に改善する,アーキテクチャ修正と新しいコントラスト学習手法を紹介する。マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見でき、3つ以上のオブジェクトを同時に表現できる同期ベースモデルのクラスを初めて得る。

関連論文リスト

One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文参考訳（メタデータ） (2025-01-06T17:43:26Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
CerberusDet: Unified Multi-Dataset Object Detection [0.0]
CerberusDetは、複数のオブジェクト検出タスクを処理するために設計されたマルチヘッドモデルを持つフレームワークである。提案されたモデルはYOLOアーキテクチャ上に構築され、バックボーンとネックコンポーネントの両方から視覚的特徴を効率的に共有する。 CerberusDetは36%の推論時間で最先端の結果を得た。
論文参考訳（メタデータ） (2024-07-17T15:00:35Z)
Recurrent Complex-Weighted Autoencoders for Unsupervised Object Discovery [62.43562856605473]
複雑な重み付き再帰的アーキテクチャの計算上の優位性について論じる。本稿では,反復的制約満足度を実現する完全畳み込みオートエンコーダSynCxを提案する。
論文参考訳（メタデータ） (2024-05-27T15:47:03Z)
Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。 Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文参考訳（メタデータ） (2024-01-08T21:19:30Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文参考訳（メタデータ） (2022-11-24T09:42:46Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Federated Action Recognition on Heterogeneous Embedded Devices [16.88104153104136]
本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。我々はまず,大規模なデータセットの知識蒸留を通じて,中央サーバでモデル圧縮を行う。より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時間的特徴を学習するのに十分なものではないため、微調整が必要である。
論文参考訳（メタデータ） (2021-07-18T02:33:24Z)
Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。我々はSomething-v2ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2020-11-04T21:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。