Fugu-MT 論文翻訳(概要): Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

論文の概要: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

arxiv url: http://arxiv.org/abs/2404.16828v1
Date: Thu, 25 Apr 2024 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 12:51:20.180957
Title: Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
Title（参考訳）: Made to Order: 自己教師型ビデオ注文によるモノトニック時間変化の発見
Authors: Charig Yang, Weidi Xie, Andrew Zisserman,
Abstract要約: 我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。また、任意の長さの画像列と帰属写像を組み込んだ汎用的な順序付けのためのフレキシブルトランスフォーマーモデルも導入する。
参考スコア（独自算出の注目度）: 89.0660110757949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a supervisory signal since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a flexible transformer-based model for general-purpose ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple video settings covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state of the art on standard benchmarks for ordering a set of images.
Abstract（参考訳）: 我々の目的は、画像列における単調な時間変化を発見し、局所化することである。これを実現するために、シャッフル画像列を順序付けする単純なプロキシタスクを、時間とともに単調な変化だけが正しい順序付けをもたらすため、監督信号として機能する'time'を用いて利用する。また、任意の長さの画像列と帰属写像を組み込んだ汎用的な順序付けのためのフレキシブルトランスフォーマーベースモデルも導入する。訓練後、このモデルは周期的および確率的な変化を無視しながら単調な変化を発見し、局所化する。本研究では、異なるシーンとオブジェクトタイプをカバーする複数のビデオ設定におけるモデルの応用を実証し、未知のシーケンスにおけるオブジェクトレベルと環境変化の両方を発見する。また、注目に基づく属性マップは、変化領域をセグメント化するための効果的なプロンプトとして機能し、学習された表現が下流アプリケーションに利用できることを示す。最後に,一組の画像を順序付けするための標準ベンチマークにおいて,そのモデルが最先端のベンチマークを実現することを示す。

関連論文リスト

SMKC: Sketch Based Kernel Correlation Images for Variable Cardinality Time Series Anomaly Detection [0.0]
運用環境では、監視システムはセンサーチャーンを頻繁に経験する。本稿では,異常検出器から動的入力構造を分離するフレームワークSMKCを提案する。 SMKC表現におけるランダムプロジェクションと近傍近傍の検出器は、完全に訓練されたベースラインと競合する。
論文参考訳（メタデータ） (2026-01-28T21:15:11Z)
Spanning Tree Autoregressive Visual Generation [51.7635842702602]
本稿では,Spanning Tree Autoregressive (STAR) モデリングについて述べる。
論文参考訳（メタデータ） (2025-11-21T09:45:17Z)
JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition [21.039399444257807]
視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。マルチタスク学習フレームワークを用いて,大規模な未処理画像集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。提案モデルでは,8倍の小さい記述子を用いて,より軽量なアーキテクチャで,さまざまな長さのシーケンスを処理し,より高速な動作を実現している。
論文参考訳（メタデータ） (2024-03-28T19:11:26Z)
Self-Supervised Temporal Analysis of Spatiotemporal Data [2.2720298829059966]
地理空間活動の時間的パターンと土地利用のタイプとの間には相関関係がある。移動活動時系列に基づいて景観を階層化する,新たな自己教師型手法を提案する。実験により、時間埋め込みは時系列データの意味論的に意味のある表現であり、異なるタスクにまたがって効果的であることが示されている。
論文参考訳（メタデータ） (2023-04-25T20:34:38Z)
Uniform Sequence Better: Time Interval Aware Data Augmentation for Sequential Recommendation [16.00020821220671]
シーケンシャルレコメンデーションは、アイテムのシーケンスに基づいてアクセスする次の項目を予測する重要なタスクである。既存の作業の多くは、これらの2つの項目間の時間間隔を無視して、前の項目から次の項目への遷移パターンとして、ユーザの好みを学ぶ。文献では研究されていない時間間隔の観点からシーケンスデータを拡張することを提案する。
論文参考訳（メタデータ） (2022-12-16T03:13:43Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
DisPositioNet: Disentangled Pose and Identity in Semantic Image Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文参考訳（メタデータ） (2022-11-10T11:47:37Z)
A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文参考訳（メタデータ） (2022-10-12T16:18:25Z)
Disentangling Random and Cyclic Effects in Time-Lapse Sequences [32.91054260622378]
本稿では,画像の全体的な傾向,循環効果,ランダムな影響を分離し,後続の制御を可能にする方法で,時間経過列をアンタングリングする問題を提起する。提案手法は,時間経過シーケンスの時間座標を条件としたGAN(Generative Adversarial Networks)に基づく。我々のモデルはトレーニングデータの欠陥に対して堅牢であることを示し、長いタイムラプスシーケンスをキャプチャする際の現実的な困難を修正できるようにします。
論文参考訳（メタデータ） (2022-07-04T13:49:04Z)
Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。我々のモデルは単調列と非単調列の両方を考慮に入れている。自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文参考訳（メタデータ） (2021-11-17T18:55:36Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。