論文の概要: Leveraging AV1 motion vectors for Fast and Dense Feature Matching
- arxiv url: http://arxiv.org/abs/2510.17434v2
- Date: Tue, 21 Oct 2025 07:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.040292
- Title: Leveraging AV1 motion vectors for Fast and Dense Feature Matching
- Title(参考訳): 高速・高密度特徴マッチングのためのAV1運動ベクトルの活用
- Authors: Julien Zouein, Hossein Javidnia, François Pitié, Anil Kokaram,
- Abstract要約: 短いビデオでは、圧縮されたドメインのフロントエンドは、はるかに少ないCPUを使用しながらシーケンシャルSIFTと互換性があり、競合するペアの幾何とより密にマッチする。
その結果、圧縮ドメイン対応は、完全なパイプラインでのスケーリングへの明確な経路を持つ、実用的でリソース効率のよいフロントエンドであることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We repurpose AV1 motion vectors to produce dense sub-pixel correspondences and short tracks filtered by cosine consistency. On short videos, this compressed-domain front end runs comparably to sequential SIFT while using far less CPU, and yields denser matches with competitive pairwise geometry. As a small SfM demo on a 117-frame clip, MV matches register all images and reconstruct 0.46-0.62M points at 0.51-0.53,px reprojection error; BA time grows with match density. These results show compressed-domain correspondences are a practical, resource-efficient front end with clear paths to scaling in full pipelines.
- Abstract(参考訳): 我々はAV1運動ベクトルを再利用し、コサイン一貫性でフィルタされた高密度のサブピクセル対応とショートトラックを生成する。
短いビデオでは、圧縮されたドメインのフロントエンドは、はるかに少ないCPUを使用しながらシーケンシャルSIFTと互換性があり、競合するペアの幾何とより密にマッチする。
117フレームのクリップ上の小さなSfMデモとして、MVはすべての画像を登録し、0.46-0.62Mポイントを0.51-0.53,px再射誤差で再構成する。
これらの結果から, 圧縮領域対応は, 完全なパイプラインをスケールするための明確な経路を持つ, 実用的で資源効率のよいフロントエンドであることがわかった。
関連論文リスト
- Fast Feature Matching of UAV Images via Matrix Band Reduction-based GPU Data Schedule [5.104096700315428]
提案アルゴリズムは,UAV画像の特徴マッチングのための効率的な解法である。
77.0から100.0までのスピードアップ比を持つ特徴マッチングの効率をKD-Treeベースのマッチング手法と比較して向上させる。
論文 参考訳(メタデータ) (2025-05-28T08:12:12Z) - An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。
言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。
トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文 参考訳(メタデータ) (2025-04-21T17:57:21Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM) [37.87282737463472]
本稿では,ローカルポイントクラウド幾何エンコーダであるVecKMを提案する。
VecKMは、近隣のすべての点を用いて局所的幾何学的エンコーディングを構築し、より記述的なエンコーディングを生成する。
VecKMは計算が効率的で、大規模クラウドインプットにスケーラブルである。
論文 参考訳(メタデータ) (2024-04-02T02:01:21Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for
Video Frame Interpolation [0.0]
本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。
すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで公開されている。
論文 参考訳(メタデータ) (2021-05-27T22:31:40Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。