論文の概要: Learning Knowledge-Rich Sequential Model for Planar Homography
Estimation in Aerial Video
- arxiv url: http://arxiv.org/abs/2304.02715v1
- Date: Wed, 5 Apr 2023 19:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 16:09:35.129040
- Title: Learning Knowledge-Rich Sequential Model for Planar Homography
Estimation in Aerial Video
- Title(参考訳): 航空映像における平面ホログラフィー推定のための知識リッチシーケンスモデル
- Authors: Pu Li, Xiaobai Liu
- Abstract要約: 我々は,ビデオフレームのシーケンスを処理し,その一対の平面ホモグラフ変換をバッチで推定する逐次推定器を開発した。
また、このようなシーケンス・ツー・シーケンスモデルの学習を規則化するために、空間的時間的知識のセットも組み込んだ。
実験的な研究により、我々の逐次モデルが代替画像ベース法よりも大幅に改善されることが示唆された。
- 参考スコア(独自算出の注目度): 12.853493070295457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents an unsupervised approach that leverages raw aerial videos
to learn to estimate planar homographic transformation between consecutive
video frames. Previous learning-based estimators work on pairs of images to
estimate their planar homographic transformations but suffer from severe
over-fitting issues, especially when applying over aerial videos. To address
this concern, we develop a sequential estimator that directly processes a
sequence of video frames and estimates their pairwise planar homographic
transformations in batches. We also incorporate a set of spatial-temporal
knowledge to regularize the learning of such a sequence-to-sequence model. We
collect a set of challenging aerial videos and compare the proposed method to
the alternative algorithms. Empirical studies suggest that our sequential model
achieves significant improvement over alternative image-based methods and the
knowledge-rich regularization further boosts our system performance. Our codes
and dataset could be found at https://github.com/Paul-LiPu/DeepVideoHomography
- Abstract(参考訳): 本稿では,生の空中映像を利用して連続する映像フレーム間の平面ホモグラフィック変換を推定する教師なし手法を提案する。
従来の学習ベースの推定器は、一対のイメージを使って、平面的ホモグラフィック変換を推定するが、特に空中ビデオに代えて、厳しい過度な問題に悩まされる。
この問題に対処するため,ビデオフレームのシーケンスを直接処理し,その一対の平面ホモグラフ変換をバッチで推定する逐次推定器を開発した。
また,このようなシーケンス・ツー・シーケンスモデルの学習を正則化するために,空間-時間的知識の組を組み込んだ。
我々は,難易度の高い空中映像の集合を収集し,提案手法と代替アルゴリズムを比較した。
経験的研究から,我々のシーケンシャルモデルが代替画像ベース手法よりも大幅に改善し,知識豊富な正規化によりシステム性能がさらに向上することが示唆された。
私たちのコードとデータセットはhttps://github.com/Paul-LiPu/DeepVideoHomographyで確認できる。
関連論文リスト
- Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。
予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。
実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-27T08:39:38Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle
Adjustment [21.98302129015761]
本稿では,確率的拡散フレームワーク内での運動構造(SfM)問題を定式化することを提案する。
本稿では,従来のSfMパイプラインよりもPoseDiffusionが大幅に改善されていることを示す。
本手法は,さらなるトレーニングを行なわずにデータセットをまたいで一般化できることが観察された。
論文 参考訳(メタデータ) (2023-06-27T17:59:07Z) - Half-sibling regression meets exoplanet imaging: PSF modeling and
subtraction using a flexible, domain knowledge-driven, causal framework [7.025418443146435]
既存の後処理アルゴリズムは、問題に関して利用可能なすべての事前のドメイン知識を使用しない。
本稿では,データ生成過程の系統的ノイズと因果構造に対する理解に基づく新しい手法を提案する。
提案アルゴリズムは,PCAをベースとしたPSFサブトラクションよりも偽陽性率が高い。
論文 参考訳(メタデータ) (2022-04-07T13:34:30Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Efficient training for future video generation based on hierarchical
disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。
1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。
提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T10:43:23Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Continual Learning of Predictive Models in Video Sequences via
Variational Autoencoders [6.698751933050415]
本稿では,映像系列における将来のフレームの推論を容易にする予測モデルの連続的な学習手法を提案する。
初期変分オートコーダと、完全に接続されたニューラルネットワークのセットを用いて、潜時空間レベルでの映像フレームとそのダイナミクスの出現をそれぞれ学習する。
論文 参考訳(メタデータ) (2020-06-02T21:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。