論文の概要: Adaptive Slot Attention: Object Discovery with Dynamic Slot Number
- arxiv url: http://arxiv.org/abs/2406.09196v1
- Date: Thu, 13 Jun 2024 14:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:14:49.385524
- Title: Adaptive Slot Attention: Object Discovery with Dynamic Slot Number
- Title(参考訳): 適応スロット注意:動的スロット数によるオブジェクト発見
- Authors: Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang,
- Abstract要約: スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
- 参考スコア(独自算出の注目度): 64.45419820717754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric learning (OCL) extracts the representation of objects with slots, offering an exceptional blend of flexibility and interpretability for abstracting low-level perceptual features. A widely adopted method within OCL is slot attention, which utilizes attention mechanisms to iteratively refine slot representations. However, a major drawback of most object-centric models, including slot attention, is their reliance on predefining the number of slots. This not only necessitates prior knowledge of the dataset but also overlooks the inherent variability in the number of objects present in each instance. To overcome this fundamental limitation, we present a novel complexity-aware object auto-encoder framework. Within this framework, we introduce an adaptive slot attention (AdaSlot) mechanism that dynamically determines the optimal number of slots based on the content of the data. This is achieved by proposing a discrete slot sampling module that is responsible for selecting an appropriate number of slots from a candidate list. Furthermore, we introduce a masked slot decoder that suppresses unselected slots during the decoding process. Our framework, tested extensively on object discovery tasks with various datasets, shows performance matching or exceeding top fixed-slot models. Moreover, our analysis substantiates that our method exhibits the capability to dynamically adapt the slot number according to each instance's complexity, offering the potential for further exploration in slot attention research. Project will be available at https://kfan21.github.io/AdaSlot/
- Abstract(参考訳): オブジェクト中心学習(OCL)は、低レベルの知覚的特徴を抽象化するための、柔軟性と解釈性の例外的なブレンドを提供する、スロット付きオブジェクトの表現を抽出する。
OCLで広く採用されている手法はスロットアテンションであり、注意機構を利用してスロット表現を反復的に洗練する。
しかし、スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
これはデータセットの事前の知識を必要とするだけでなく、各インスタンスに存在するオブジェクトの数に固有の変動性を見落としている。
この基本的な制限を克服するために、我々は新しい複雑性を意識したオブジェクト自動エンコーダフレームワークを提案する。
本フレームワークでは,データの内容に基づいて最適なスロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
これは、候補リストから適切な数のスロットを選択する責任を持つ離散スロットサンプリングモジュールを提案することで達成される。
さらに,デコード処理中に未選択のスロットを抑制するマスク付きスロットデコーダを導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
さらに,本手法は各インスタンスの複雑さに応じてスロット番号を動的に適応させる能力を示し,スロットアテンション研究におけるさらなる探索の可能性を示す。
プロジェクトはhttps://kfan21.github.io/AdaSlot/で公開される。
関連論文リスト
- Masked Multi-Query Slot Attention for Unsupervised Object Discovery [7.613552182035413]
本研究では,DINO ViTの特徴をスロットと呼ばれる一連の表現によって再構成するオブジェクト中心のアプローチについて考察する。
本稿では,背景領域を無視した入力特徴のマスキング手法を提案する。
実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。
論文 参考訳(メタデータ) (2024-04-30T15:51:05Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Sensitivity of Slot-Based Object-Centric Models to their Number of Slots [15.990209329609275]
スロットベースの手法のK$に対する感度と、それがデータ内のオブジェクトへの学習対応に与える影響について検討する。
トレーニング中、特にK$の誤った選択は、望ましい対象分解を得られない。
目的関数の選択とインスタンスレベルのアノテーションの導入によって、この振る舞いを適度に軽減できることを示す。
論文 参考訳(メタデータ) (2023-05-30T09:44:12Z) - Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2023-02-09T23:25:28Z) - IoU-Enhanced Attention for End-to-End Task Specific Object Detection [17.617133414432836]
R-CNNは画像に密着したアンカーボックスやグリッドポイントを使わずに有望な結果が得られる。
クエリとアテンション領域の間のスパースの性質と1対1の関係のため、自己注意に大きく依存する。
本稿では,自己注意における値ルーティングの先行として,異なるボックス間でIoUを使用することを提案する。
論文 参考訳(メタデータ) (2022-09-21T14:36:18Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Towards Real-World Prohibited Item Detection: A Large-Scale X-ray
Benchmark [53.9819155669618]
本稿では,PIDrayと命名された大規模データセットについて述べる。
大量の努力を払って、私たちのデータセットには、高品質な注釈付きセグメンテーションマスクとバウンディングボックスを備えた47,677ドルのX線画像に、禁止アイテムの12ドルカテゴリが含まれています。
提案手法は最先端の手法に対して,特に故意に隠された項目を検出するために好適に機能する。
論文 参考訳(メタデータ) (2021-08-16T11:14:16Z) - Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling [65.09621991654745]
クロスドメインスロットフィリングはタスク指向ダイアログシステムにおいて重要なタスクである。
クロスドメインスロットフィリングのための粗粒度アプローチ(Coach)を提案する。
実験結果から,本モデルはスロット充填における最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-24T13:07:12Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。