論文の概要: Learning Transformations To Reduce the Geometric Shift in Object
Detection
- arxiv url: http://arxiv.org/abs/2301.05496v1
- Date: Fri, 13 Jan 2023 11:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:42:54.664438
- Title: Learning Transformations To Reduce the Geometric Shift in Object
Detection
- Title(参考訳): 物体検出における幾何学的シフトを減らすための学習変換
- Authors: Vidit Vidit, Martin Engilberge, Mathieu Salzmann
- Abstract要約: 画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 60.20931827772482
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of modern object detectors drops when the test distribution
differs from the training one. Most of the methods that address this focus on
object appearance changes caused by, e.g., different illumination conditions,
or gaps between synthetic and real images. Here, by contrast, we tackle
geometric shifts emerging from variations in the image capture process, or due
to the constraints of the environment causing differences in the apparent
geometry of the content itself. We introduce a self-training approach that
learns a set of geometric transformations to minimize these shifts without
leveraging any labeled data in the new domain, nor any information about the
cameras. We evaluate our method on two different shifts, i.e., a camera's field
of view (FoV) change and a viewpoint change. Our results evidence that learning
geometric transformations helps detectors to perform better in the target
domains.
- Abstract(参考訳): 現代の物体検出器の性能は、試験分布が訓練対象と異なると低下する。
この問題に対処するほとんどの方法は、例えば異なる照明条件、あるいは合成画像と実画像の間の隙間によって引き起こされる物体の外観変化に焦点を当てている。
これとは対照的に、画像キャプチャプロセスのバリエーションから生じる幾何学的シフトや、コンテンツ自体の見かけの形状に違いをもたらす環境の制約に対処します。
新しい領域のラベル付きデータやカメラに関する情報を使わずに、これらのシフトを最小限に抑えるために幾何変換のセットを学習する自己学習手法を導入する。
本稿では,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて評価する。
この結果から,幾何変換の学習は,検出者が対象領域においてより良く機能するのに役立つことが示された。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Self-Supervised Learning from Non-Object Centric Images with a Geometric
Transformation Sensitive Architecture [7.825153552141346]
本稿では幾何学的変換に敏感な幾何学的変換感性アーキテクチャを提案する。
本手法は, 回転予測や変換の異なる目標の利用により, 学生に敏感になるよう促す。
提案手法は,非対象中心画像を事前学習データとして用いる際の性能向上を示す。
論文 参考訳(メタデータ) (2023-04-17T06:32:37Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - A Light Touch Approach to Teaching Transformers Multi-view Geometry [80.35521056416242]
視覚変換器の多視点幾何学習を支援する「ライトタッチ」手法を提案する。
本研究では,トランスフォーマーのクロスアテンションマップの導出にエピポーラ線を用いる。
従来の方法とは異なり、我々の提案ではテスト時にカメラのポーズ情報を必要としない。
論文 参考訳(メタデータ) (2022-11-28T07:54:06Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - Image-to-image Transformation with Auxiliary Condition [0.0]
本稿では,CycleGANのトレーニングにおけるポーズや対象のタイプなど,被験者のラベル情報を導入し,ラベルに配慮したトランスフォーメーションモデルを構築することを提案する。
我々は,SVHNからMNISTへのデジタル画像変換と,シミュレートされた実画像から実画像への監視カメラ画像変換実験を通じて,ラベル・シクレガンと呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-06-25T15:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。