論文の概要: Predicting Video Slot Attention Queries from Random Slot-Feature Pairs
- arxiv url: http://arxiv.org/abs/2508.01345v1
- Date: Sat, 02 Aug 2025 12:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.836054
- Title: Predicting Video Slot Attention Queries from Random Slot-Feature Pairs
- Title(参考訳): ランダムスロット機能ペアによるビデオスロット注意クエリの予測
- Authors: Rongzhen Zhao, Jian Li, Juho Kannala, Joni Pajarinen,
- Abstract要約: スロットと機能の両方を組み込んだ新しいトランジタを提案し,クエリ予測のための情報を提供する。
シーン表現実験により,本手法が既存のOCL手法をはるかに上回っていることが示された。
- 参考スコア(独自算出の注目度): 22.90002114052139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised video Object-Centric Learning (OCL) is promising as it enables object-level scene representation and dynamics modeling as we humans do. Mainstream video OCL methods adopt a recurrent architecture: An aggregator aggregates current video frame into object features, termed slots, under some queries; A transitioner transits current slots to queries for the next frame. This is an effective architecture but all existing implementations both (\textit{i1}) neglect to incorporate next frame features, the most informative source for query prediction, and (\textit{i2}) fail to learn transition dynamics, the knowledge essential for query prediction. To address these issues, we propose Random Slot-Feature pair for learning Query prediction (RandSF.Q): (\textit{t1}) We design a new transitioner to incorporate both slots and features, which provides more information for query prediction; (\textit{t2}) We train the transitioner to predict queries from slot-feature pairs randomly sampled from available recurrences, which drives it to learn transition dynamics. Experiments on scene representation demonstrate that our method surpass existing video OCL methods significantly, e.g., up to 10 points on object discovery, setting new state-of-the-art. Such superiority also benefits downstream tasks like dynamics modeling. Our core source code and training logs are available as the supplement.
- Abstract(参考訳): 人間と同じようにオブジェクトレベルのシーン表現と動的モデリングを可能にするため、教師なしのビデオオブジェクト中心学習(OCL)は有望である。
集約器は現在のビデオフレームをオブジェクトの特徴に集約し、いくつかのクエリではスロットと呼ばれる。
これは効果的なアーキテクチャであるが、既存のすべての実装 (\textit{i1}) は、クエリ予測に最も有用なソースである次のフレーム機能、および (\textit{i2}) がクエリ予測に必要な知識であるトランジッションダイナミクスを学習できないことを無視している。
これらの問題に対処するために、クエリ予測(RandSF.Q): (\textit{t1}) クエリ予測のためのより多くの情報を提供するスロットと機能の両方を組み込む新しいトランジタを設計する; (\textit{t2}) トランジタをトレーニングして、利用可能な繰り返しからランダムにサンプリングされたスロット機能ペアからクエリを予測する。
シーン表現実験により,本手法が既存のOCL手法,例えばオブジェクト発見の最大10点をはるかに上回り,新たな最先端技術が確立された。
このような優越性は、動的モデリングのような下流のタスクにも利益があります。
コアソースコードとトレーニングログがサプリメントとして利用可能です。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - UniST: Towards Unifying Saliency Transformer for Video Saliency
Prediction and Detection [9.063895463649414]
このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。
私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
論文 参考訳(メタデータ) (2023-09-15T07:39:53Z) - ViGT: Proposal-free Video Grounding with Learnable Token in Transformer [28.227291816020646]
ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-11T08:30:08Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。