論文の概要: Smoothing Slot Attention Iterations and Recurrences
- arxiv url: http://arxiv.org/abs/2508.05417v1
- Date: Thu, 07 Aug 2025 14:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.896936
- Title: Smoothing Slot Attention Iterations and Recurrences
- Title(参考訳): スムーズなスロット注意イテレーションと再帰
- Authors: Rongzhen Zhao, Wenyan Yang, Juho Kannala, Joni Pajarinen,
- Abstract要約: スロット注意(SA)とその変種は、主流のオブジェクト指向学習(OCL)の中心にある
ビデオの場合、このようなアグリゲーションはフレーム間でテキスト的に共有され、第1フレームではクエリがコールドスタートされ、第1フレームでは前のフレームのスロットから遷移する。
画像やビデオの最初のフレームでSAイテレーションをスムーズにするために、入力機能の豊富な情報でコールドスタートクエリをテキスト化します。
- 参考スコア(独自算出の注目度): 20.627109586228002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slot Attention (SA) and its variants lie at the heart of mainstream Object-Centric Learning (OCL). Objects in an image can be aggregated into respective slot vectors, by \textit{iteratively} refining cold-start query vectors, typically three times, via SA on image features. For video, such aggregation is \textit{recurrently} shared across frames, with queries cold-started on the first frame while transitioned from the previous frame's slots on non-first frames. However, the cold-start queries lack sample-specific cues thus hinder precise aggregation on the image or video's first frame; Also, non-first frames' queries are already sample-specific thus require transforms different from the first frame's aggregation. We address these issues for the first time with our \textit{SmoothSA}: (1) To smooth SA iterations on the image or video's first frame, we \textit{preheat} the cold-start queries with rich information of input features, via a tiny module self-distilled inside OCL; (2) To smooth SA recurrences across all video frames, we \textit{differentiate} the homogeneous transforms on the first and non-first frames, by using full and single iterations respectively. Comprehensive experiments on object discovery, recognition and downstream benchmarks validate our method's effectiveness. Further analyses intuitively illuminate how our method smooths SA iterations and recurrences. Our code is available in the supplement.
- Abstract(参考訳): スロット注意(SA)とその変種は、主流のオブジェクト指向学習(OCL)の中心にある。
イメージ内のオブジェクトは各スロットベクターに集約することができ、画像上のSAを介して、通常3回、コールドスタートクエリベクターを \textit{iteratively} で精製する。
ビデオの場合、このような集約はフレーム間で共有され、第1フレームでコールドスタートされたクエリは、前フレームのスロットから第1フレームに遷移する。
しかし、コールドスタートクエリにはサンプル固有のキューがないため、画像やビデオの最初のフレームの正確なアグリゲーションを妨げる。
1)イメージまたはビデオの最初のフレームでSAの繰り返しをスムーズにするために、私たちは、OCL内部で自己蒸留した小さなモジュールを通して、入力機能の豊富な情報を持つコールドスタートクエリを使い、(2)すべてのビデオフレームでSAの繰り返しをスムーズにする。
オブジェクト発見,認識,下流ベンチマークに関する総合的な実験により,本手法の有効性が検証された。
さらに,本手法がSA反復と反復をいかに円滑にするかを直感的に解析する。
私たちのコードはサプリメントで利用可能です。
関連論文リスト
- Enhancing Frame Detection with Retrieval Augmented Generation [2.5782420501870296]
RCIF(Retrieve Candidates and Identify Frames)と呼ばれるフレーム検出のためのRAGに基づく最初のアプローチを提案する。
その結果,検索空間を狭めることで,検索要素がタスクの複雑さを著しく低減できることが示唆された。
提案手法はFrameNet 1.5 と 1.7 の最先端性能を実現し,原文のみを提供するシナリオにおいて,その堅牢性を実証する。
論文 参考訳(メタデータ) (2025-02-17T02:34:02Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Detector-Free Structure from Motion [63.5577809314603]
そこで我々は,非秩序な画像から正確なカメラポーズと点雲を復元する新しい構造抽出フレームワークを提案する。
我々のフレームワークはまず、量子化された検出器レスマッチングから粗いSfMモデルを再構成する。
提案手法が既存の検出器ベースのSfMシステムより優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2023-06-27T17:59:39Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文 参考訳(メタデータ) (2022-08-01T14:43:15Z) - Context Sensing Attention Network for Video-based Person
Re-identification [20.865710012336724]
ビデオフレームに様々な干渉が存在するため、ReID(Video-based person re-identification)は困難である。
近年のアプローチでは、時間的集約戦略を用いてこの問題に対処している。
フレームの特徴抽出と時間的集約の両方を改善する新しいコンテキストセンシング注意ネットワーク(CSA-Net)を提案する。
論文 参考訳(メタデータ) (2022-07-06T12:48:27Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation [16.692219644392253]
本稿では,空間キャリブレーションと時間融合による一段階ビデオインスタンスセグメンテーションフレームワークであるstmaskを提案する。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
論文 参考訳(メタデータ) (2021-04-06T09:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。