論文の概要: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
- arxiv url: http://arxiv.org/abs/2404.16828v2
- Date: Fri, 19 Jul 2024 03:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:27:33.359094
- Title: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
- Title(参考訳): Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見
- Authors: Charig Yang, Weidi Xie, Andrew Zisserman,
- Abstract要約: 我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。
本稿では,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 89.0660110757949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal, since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a transformer-based model for ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple domains covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state-of-the-art on standard benchmarks for image ordering.
- Abstract(参考訳): 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。
これを実現するために、時間とともに単調な変化だけが正しい順序付けを引き起こすので、シャッフル画像列を'time'でオーバシリ信号として振る舞う簡単なプロキシタスクを利用する。
また,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルも導入する。
訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。
本研究では、異なるシーンとオブジェクトタイプをカバーする複数の領域におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境の変化の両方を発見する。
また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。
最後に,このモデルが画像順序付けのための標準ベンチマークの最先端化を実現していることを示す。
関連論文リスト
- JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition [21.039399444257807]
視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。
マルチタスク学習フレームワークを用いて,大規模な未処理画像集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。
提案モデルでは,8倍の小さい記述子を用いて,より軽量なアーキテクチャで,さまざまな長さのシーケンスを処理し,より高速な動作を実現している。
論文 参考訳(メタデータ) (2024-03-28T19:11:26Z) - Self-Supervised Temporal Analysis of Spatiotemporal Data [2.2720298829059966]
地理空間活動の時間的パターンと土地利用のタイプとの間には相関関係がある。
移動活動時系列に基づいて景観を階層化する,新たな自己教師型手法を提案する。
実験により、時間埋め込みは時系列データの意味論的に意味のある表現であり、異なるタスクにまたがって効果的であることが示されている。
論文 参考訳(メタデータ) (2023-04-25T20:34:38Z) - Uniform Sequence Better: Time Interval Aware Data Augmentation for
Sequential Recommendation [16.00020821220671]
シーケンシャルレコメンデーションは、アイテムのシーケンスに基づいてアクセスする次の項目を予測する重要なタスクである。
既存の作業の多くは、これらの2つの項目間の時間間隔を無視して、前の項目から次の項目への遷移パターンとして、ユーザの好みを学ぶ。
文献では研究されていない時間間隔の観点からシーケンスデータを拡張することを提案する。
論文 参考訳(メタデータ) (2022-12-16T03:13:43Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Disentangling Random and Cyclic Effects in Time-Lapse Sequences [32.91054260622378]
本稿では,画像の全体的な傾向,循環効果,ランダムな影響を分離し,後続の制御を可能にする方法で,時間経過列をアンタングリングする問題を提起する。
提案手法は,時間経過シーケンスの時間座標を条件としたGAN(Generative Adversarial Networks)に基づく。
我々のモデルはトレーニングデータの欠陥に対して堅牢であることを示し、長いタイムラプスシーケンスをキャプチャする際の現実的な困難を修正できるようにします。
論文 参考訳(メタデータ) (2022-07-04T13:49:04Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。