論文の概要: Unlocking Slot Attention by Changing Optimal Transport Costs
- arxiv url: http://arxiv.org/abs/2301.13197v1
- Date: Mon, 30 Jan 2023 18:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:11:57.237045
- Title: Unlocking Slot Attention by Changing Optimal Transport Costs
- Title(参考訳): 最適輸送コスト変更による開錠スロットの注意
- Authors: Yan Zhang, David W. Zhang, Simon Lacoste-Julien, Gertjan J. Burghouts,
Cees G. M. Snoek
- Abstract要約: MESHは、非正規化された最適輸送と正規化された最適輸送の速度を結合する断続モジュールである。
複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。
- 参考スコア(独自算出の注目度): 53.730667864485156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slot attention is a powerful method for object-centric modeling in images and
videos. However, its set-equivariance limits its ability to handle videos with
a dynamic number of objects because it cannot break ties. To overcome this
limitation, we first establish a connection between slot attention and optimal
transport. Based on this new perspective we propose MESH (Minimize Entropy of
Sinkhorn): a cross-attention module that combines the tiebreaking properties of
unregularized optimal transport with the speed of regularized optimal
transport. We evaluate slot attention using MESH on multiple object-centric
learning benchmarks and find significant improvements over slot attention in
every setting.
- Abstract(参考訳): スロットアテンションは、画像やビデオにおけるオブジェクト中心モデリングの強力な方法である。
しかし、そのセット等価性は、結合を壊すことができないため、動的数のオブジェクトを持つビデオを扱う能力を制限する。
この制限を克服するために,まずスロットアテンションと最適トランスポートの接続を確立する。
この新たな視点に基づいて,非正規化された最適輸送と正則化された最適輸送の速度を結合するクロスアテンションモジュール MESH (Minimize Entropy of Sinkhorn) を提案する。
複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。
関連論文リスト
- MOT FCG++: Enhanced Representation of Spatio-temporal Motion and Appearance Features [0.0]
本稿では, 階層クラスタリング手法MOT FCGの改良により, 外観と時空間の動作特徴を表現できる新しい手法を提案する。
まず, 物体の位置と形状の関係をより正確に表現した, 対角変調GIoUを提案する。
外観特徴に対して、信頼情報を含む動的外観表現を用い、軌道の外観特徴をより堅牢でグローバルにすることができる。
論文 参考訳(メタデータ) (2024-11-15T08:17:05Z) - Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Optimization-Inspired Cross-Attention Transformer for Compressive
Sensing [45.672646799969215]
高い解釈性と高い性能を有する深部展開ネットワーク(DUN)は、圧縮センシングにおいて注目を集めている。
既存のDUNは、多数のパラメーターの価格で視覚的品質を向上し、イテレーション中に特徴情報を失う問題を引き起こすことが多い。
画像CSのための軽量なOCTUF (OCT-based Unfolding Framework) を実現するため,OCTモジュールを反復処理として提案する。
論文 参考訳(メタデータ) (2023-04-27T07:21:30Z) - AiATrack: Attention in Attention for Transformer Visual Tracking [89.94386868729332]
トランスフォーマートラッカーは近年,注目機構が重要な役割を担っている,目覚ましい進歩を遂げている。
我々は,すべての相関ベクトル間のコンセンサスを求めることにより,適切な相関性を高め,誤相関を抑制する注意モジュール(AiA)を提案する。
我々のAiAモジュールは自己認識ブロックとクロスアテンションブロックの両方に容易に適用でき、視覚追跡のための特徴集約と情報伝達を容易にする。
論文 参考訳(メタデータ) (2022-07-20T00:44:03Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。