Fugu-MT 論文翻訳(概要): Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames

論文の概要: Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames

arxiv url: http://arxiv.org/abs/2302.04973v2
Date: Fri, 21 Jul 2023 01:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-24 16:29:09.016074
Title: Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames
Title（参考訳）: 不変スロット注意:スロット中心参照フレームによるオブジェクト発見
Authors: Ondrej Biza, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Gamaleldin F. Elsayed, Aravindh Mahendran and Thomas Kipf
Abstract要約: 自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
参考スコア（独自算出の注目度）: 18.84636947819183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically discovering composable abstractions from raw perceptual data is a long-standing challenge in machine learning. Recent slot-based neural networks that learn about objects in a self-supervised manner have made exciting progress in this direction. However, they typically fall short at adequately capturing spatial symmetries present in the visual world, which leads to sample inefficiency, such as when entangling object appearance and pose. In this paper, we present a simple yet highly effective method for incorporating spatial symmetries via slot-centric reference frames. We incorporate equivariance to per-object pose transformations into the attention and generation mechanism of Slot Attention by translating, scaling, and rotating position encodings. These changes result in little computational overhead, are easy to implement, and can result in large gains in terms of data efficiency and overall improvements to object discovery. We evaluate our method on a wide range of synthetic object discovery benchmarks namely CLEVR, Tetrominoes, CLEVRTex, Objects Room and MultiShapeNet, and show promising improvements on the challenging real-world Waymo Open dataset.
Abstract（参考訳）: 生の知覚データから構成可能な抽象化を自動的に発見することは、機械学習における長年の課題である。自己監督的な方法でオブジェクトを学習する最近のスロットベースのニューラルネットワークは、この方向にエキサイティングな進歩を遂げている。しかし、一般的には、視覚の世界に存在する空間対称性を適切に捉えられないため、オブジェクトの外観やポーズを絡めるようなサンプルの非効率性が生じる。本稿では,スロット中心参照フレームによる空間対称性を組み込んだ簡易かつ高効率な手法を提案する。対象毎のポーズ変換に対する等価性を,変換,スケーリング,回転位置符号化によるスロットアテンションの注意と生成機構に組み込む。これらの変更は計算オーバーヘッドが少なく、実装が容易であり、データ効率とオブジェクト発見の全体的な改善の観点から大きな利益をもたらす可能性がある。提案手法は,CLEVR,Tetrominoes,CLEVRTex,Objects Room,MultiShapeNetといった多種多様な合成オブジェクト探索ベンチマークを用いて評価し,現実のWaymo Openデータセットに有望な改善を示す。

関連論文リスト

Enhancing Rotated Object Detection via Anisotropic Gaussian Bounding Box and Bhattacharyya Distance [0.9786690381850356]
本稿では,検出精度とロバスト性の向上を目的とした改良された損失関数を提案する。我々は、正方形の物体における等方的分散に関連する問題に対処するために、異方的ガウス表現を使うことを提唱する。提案手法は,回転物体の幾何学的特性を効果的に捉える回転不変損失関数を組み込むことにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-10-18T10:42:30Z)
RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文参考訳（メタデータ） (2025-05-12T19:24:45Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。 SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。 Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文参考訳（メタデータ） (2024-05-10T15:27:43Z)
SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文参考訳（メタデータ） (2024-05-02T19:47:08Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文参考訳（メタデータ） (2023-06-01T12:16:26Z)
Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。 THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文参考訳（メタデータ） (2023-05-05T19:42:39Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。