論文の概要: Iterative Deep Homography Estimation
- arxiv url: http://arxiv.org/abs/2203.15982v1
- Date: Wed, 30 Mar 2022 01:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:09:00.871474
- Title: Iterative Deep Homography Estimation
- Title(参考訳): 反復的深部ホログラフィー推定
- Authors: Si-Yuan Cao, Jianxin Hu, Zehua Sheng, Hui-Liang Shen
- Abstract要約: 我々はIHN(Iterative Homography Network, IHN)を提案する。
IHNは、挑戦的なシーンを含むいくつかのデータセットで最先端の精度を達成する。
シーケンシャルなイメージペアを処理する場合、IC-LKイテレータの約8倍の32.7 fpsを達成することができる。
- 参考スコア(独自算出の注目度): 8.153308751025728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Iterative Homography Network, namely IHN, a new deep homography
estimation architecture. Different from previous works that achieve iterative
refinement by network cascading or untrainable IC-LK iterator, the iterator of
IHN has tied weights and is completely trainable. IHN achieves state-of-the-art
accuracy on several datasets including challenging scenes. We propose 2
versions of IHN: (1) IHN for static scenes, (2) IHN-mov for dynamic scenes with
moving objects. Both versions can be arranged in 1-scale for efficiency or
2-scale for accuracy. We show that the basic 1-scale IHN already outperforms
most of the existing methods. On a variety of datasets, the 2-scale IHN
outperforms all competitors by a large gap. We introduce IHN-mov by producing
an inlier mask to further improve the estimation accuracy of moving-objects
scenes. We experimentally show that the iterative framework of IHN can achieve
95% error reduction while considerably saving network parameters. When
processing sequential image pairs, IHN can achieve 32.7 fps, which is about 8x
the speed of IC-LK iterator. Source code is available at
https://github.com/imdumpl78/IHN.
- Abstract(参考訳): 本稿では,新しい深層ホモグラフィ推定アーキテクチャであるihnを提案する。
ネットワークカスケードやトレーニング不可能なIC-LKイテレータによる反復的な洗練を実現する以前の作業とは異なり、IHNのイテレータは重みを結び、完全に訓練可能である。
IHNは、挑戦的なシーンを含むいくつかのデータセットで最先端の精度を達成する。
IHN の静的なシーンに対する IHN と移動物体を伴う動的シーンに対する IHN-mov の2つのバージョンを提案する。
どちらのバージョンも効率は1スケール、精度は2スケールで配置できる。
基礎的な1スケールIHNは既存の手法よりも優れていることを示す。
さまざまなデータセットにおいて、2スケールのIHNは、大きなギャップですべての競合より優れています。
移動物体シーンの推定精度をさらに向上させるため,イリアーマスクを用いてihn-movを導入する。
ihnの反復フレームワークは,ネットワークパラメータをかなり節約しながら95%の誤り低減を達成できることを示す。
シーケンシャルなイメージペアを処理する場合、IC-LKイテレータの約8倍の32.7 fpsを達成することができる。
ソースコードはhttps://github.com/imdumpl78/ihn。
関連論文リスト
- TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。