論文の概要: Learning to Sort Image Sequences via Accumulated Temporal Differences
- arxiv url: http://arxiv.org/abs/2010.11649v1
- Date: Thu, 22 Oct 2020 12:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:58:42.061496
- Title: Learning to Sort Image Sequences via Accumulated Temporal Differences
- Title(参考訳): 累積時間差による画像シーケンスのソート学習
- Authors: Gagan Kanojia and Shanmuganathan Raman
- Abstract要約: ハンドヘルドカメラで捉えた動的シーンの非順序画像群を時間的にシークエンシングする問題に対処する。
本稿では、2次元畳み込みカーネルを通して空間情報をキャプチャする畳み込みブロックを提案する。
提案手法は最先端の手法よりも有意なマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 27.41266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a set of n images of a scene with dynamic objects captured with a
static or a handheld camera. Let the temporal order in which these images are
captured be unknown. There can be n! possibilities for the temporal order in
which these images could have been captured. In this work, we tackle the
problem of temporally sequencing the unordered set of images of a dynamic scene
captured with a hand-held camera. We propose a convolutional block which
captures the spatial information through 2D convolution kernel and captures the
temporal information by utilizing the differences present among the feature
maps extracted from the input images. We evaluate the performance of the
proposed approach on the dataset extracted from a standard action recognition
dataset, UCF101. We show that the proposed approach outperforms the
state-of-the-art methods by a significant margin. We show that the network
generalizes well by evaluating it on a dataset extracted from the DAVIS
dataset, a dataset meant for video object segmentation, when the same network
was trained with a dataset extracted from UCF101, a dataset meant for action
recognition.
- Abstract(参考訳): 静的またはハンドヘルドカメラでキャプチャされた動的オブジェクトを持つシーンのn個のイメージを考えてみよう。
これらの画像が撮影される時間順は未知である。
n! それらの画像がキャプチャされた可能性がある時間順序の可能性がある。
本研究では,ハンドヘルドカメラで撮影した動的シーンの非順序画像群を時間的にシークエンシングする問題に対処する。
本稿では,2次元畳み込みカーネルを通じて空間情報をキャプチャし,入力画像から抽出した特徴マップ間の差を利用して時間情報をキャプチャする畳み込みブロックを提案する。
標準行動認識データセットUCF101から抽出したデータセットに対する提案手法の性能評価を行った。
提案手法は最先端の手法よりも有意なマージンで優れていることを示す。
動作認識用データセットであるUCF101から抽出したデータセットを用いて,映像オブジェクトのセグメンテーション用データセットであるDAVISデータセットから抽出したデータセットを用いて,ネットワークを適切に評価することにより,ネットワークの一般化を図っている。
関連論文リスト
- Context Enhanced Transformer for Single Image Object Detection [31.52466523847246]
我々は、CETR(Context Enhanced TRansformer)と呼ばれる、単一画像オブジェクト検出のための新しいアプローチを提案する。
時間的情報を効率的に保存するために,データ間でコンテキスト情報を収集するクラスワイドメモリを構築した。
本稿では,現在の画像の関連メモリを選択的に活用するための分類に基づくサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T07:40:43Z) - Learning Sequence Descriptor based on Spatio-Temporal Attention for
Visual Place Recognition [16.380948630155476]
ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するタグ付きデータベースからフレームを取得することを目的としている。
ジオリーエイリアスシナリオにおけるVPRのロバスト性を改善するために,シーケンスベースのVPR手法を提案する。
我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
論文 参考訳(メタデータ) (2023-05-19T06:39:10Z) - Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。
我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。
コードとデータセットは公開されます。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Plotting time: On the usage of CNNs for time series classification [1.0390583509657398]
時系列データをプロット画像として表現し,それを単純なCNNに供給する,時系列分類のための新しい手法を提案する。
われわれのアプローチは非常に有望であり、6つのUCRデータセットにおいて、実世界のデータセットで最高の結果を得るとともに、最高の最先端のメソッドをマッチング/ビーティングします。
論文 参考訳(メタデータ) (2021-02-08T13:23:01Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Asynchronous Tracking-by-Detection on Adaptive Time Surfaces for
Event-based Object Tracking [87.0297771292994]
本稿では,イベントベースのトラッキング・バイ・ディテクト(ETD)手法を提案する。
この目的を達成するために,線形時間決定(ATSLTD)イベント・ツー・フレーム変換アルゴリズムを用いた適応時間曲面を提案する。
提案手法と,従来のカメラやイベントカメラをベースとした7種類のオブジェクト追跡手法と,ETDの2種類のバリエーションを比較した。
論文 参考訳(メタデータ) (2020-02-13T15:58:31Z) - Virtual KITTI 2 [13.390646987475163]
本稿では、よく知られたVirtual KITTIデータセットの更新版を紹介する。
データセットは、KITTI追跡ベンチマークから5つのシークエンスクローンで構成されている。
各シーケンスに対して、RGB、深さ、クラスセグメンテーション、インスタンスセグメンテーション、フロー、シーンフローデータを含む複数の画像セットを提供する。
論文 参考訳(メタデータ) (2020-01-29T12:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。