論文の概要: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
- arxiv url: http://arxiv.org/abs/2404.16828v1
- Date: Thu, 25 Apr 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:51:20.180957
- Title: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
- Title(参考訳): Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見
- Authors: Charig Yang, Weidi Xie, Andrew Zisserman,
- Abstract要約: 我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。
また、任意の長さの画像列と帰属写像を組み込んだ汎用的な順序付けのためのフレキシブルトランスフォーマーモデルも導入する。
- 参考スコア(独自算出の注目度): 89.0660110757949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a flexible transformer-based model for general-purpose ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple video settings covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state of the art on standard benchmarks for ordering a set of images.
- Abstract(参考訳): 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。
これを実現するために、シャッフル画像列を順序付けする単純なプロキシタスクを、時間とともに単調な変化だけが正しい順序付けをもたらすため、監督信号として機能する'time'を用いて利用する。
また、任意の長さの画像列と帰属写像を組み込んだ汎用的な順序付けのためのフレキシブルトランスフォーマーベースモデルも導入する。
訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。
本研究では、異なるシーンとオブジェクトタイプをカバーする複数のビデオ設定におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境変化の両方を発見する。
また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。
最後に,一組の画像を順序付けするための標準ベンチマークにおいて,そのモデルが最先端のベンチマークを実現することを示す。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-Supervised Temporal Analysis of Spatiotemporal Data [2.2720298829059966]
地理空間活動の時間的パターンと土地利用のタイプとの間には相関関係がある。
移動活動時系列に基づいて景観を階層化する,新たな自己教師型手法を提案する。
実験により、時間埋め込みは時系列データの意味論的に意味のある表現であり、異なるタスクにまたがって効果的であることが示されている。
論文 参考訳(メタデータ) (2023-04-25T20:34:38Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Disentangling Random and Cyclic Effects in Time-Lapse Sequences [32.91054260622378]
本稿では,画像の全体的な傾向,循環効果,ランダムな影響を分離し,後続の制御を可能にする方法で,時間経過列をアンタングリングする問題を提起する。
提案手法は,時間経過シーケンスの時間座標を条件としたGAN(Generative Adversarial Networks)に基づく。
我々のモデルはトレーニングデータの欠陥に対して堅牢であることを示し、長いタイムラプスシーケンスをキャプチャする際の現実的な困難を修正できるようにします。
論文 参考訳(メタデータ) (2022-07-04T13:49:04Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。