論文の概要: Panoramic Distortion-Aware Tokenization for Person Detection and Localization Using Transformers in Overhead Fisheye Images
- arxiv url: http://arxiv.org/abs/2503.14228v1
- Date: Tue, 18 Mar 2025 13:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:37.105158
- Title: Panoramic Distortion-Aware Tokenization for Person Detection and Localization Using Transformers in Overhead Fisheye Images
- Title(参考訳): 頭上魚眼画像における変圧器を用いた人物検出と位置推定のためのパノラマ歪み認識トークン化
- Authors: Nobuhiko Wakai, Satoshi Sato, Yasunori Ishii, Takayoshi Yamashita,
- Abstract要約: 人検出は、人の回転や小人数の人を含む要因のため、オープンな課題である。
魚眼画像をパノラマ画像に変換するために,パノラマ歪み認識トークン化を用いる。
本研究では,パノラマ画像の再マッピングとトークン化処理を組み合わせた人物検出・位置決め手法を提案する。
- 参考スコア(独自算出の注目度): 9.018416031676136
- License:
- Abstract: Person detection methods are used widely in applications including visual surveillance, pedestrian detection, and robotics. However, accurate detection of persons from overhead fisheye images remains an open challenge because of factors including person rotation and small-sized persons. To address the person rotation problem, we convert the fisheye images into panoramic images. For smaller people, we focused on the geometry of the panoramas. Conventional detection methods tend to focus on larger people because these larger people yield large significant areas for feature maps. In equirectangular panoramic images, we find that a person's height decreases linearly near the top of the images. Using this finding, we leverage the significance values and aggregate tokens that are sorted based on these values to balance the significant areas. In this leveraging process, we introduce panoramic distortion-aware tokenization. This tokenization procedure divides a panoramic image using self-similarity figures that enable determination of optimal divisions without gaps, and we leverage the maximum significant values in each tile of token groups to preserve the significant areas of smaller people. To achieve higher detection accuracy, we propose a person detection and localization method that combines panoramic-image remapping and the tokenization procedure. Extensive experiments demonstrated that our method outperforms conventional methods when applied to large-scale datasets.
- Abstract(参考訳): 人検出法は視覚的監視、歩行者検出、ロボット工学などの用途で広く用いられている。
しかし、人物の回転や小人数などの要因から、頭上魚眼画像からの人物の正確な検出は未解決の課題である。
人体回転問題に対処するため,魚眼画像をパノラマ画像に変換する。
小規模な人にとっては、パノラマの幾何学に焦点を当てました。
従来の検出手法では,これらの人口が特徴地図において大きな面積を占めるため,大規模に注目する傾向にある。
等角パノラマ画像では、人物の身長は画像の上部付近で直線的に減少する。
この発見を用いて、これらの値に基づいてソートされる重要値と集合トークンを利用して、重要な領域のバランスをとる。
この活用プロセスでは、パノラマ歪み認識トークン化を導入する。
このトークン化手法は, 自己相似図形を用いてパノラマ画像を分割し, トークン群の各タイルの最大値を利用して, より小さな人々の重要な領域を保存する。
そこで本研究では,パノラマ画像再マッピングとトークン化処理を組み合わせた人物検出・位置決め手法を提案する。
大規模データセットに適用した場合,本手法は従来の手法よりも優れていた。
関連論文リスト
- Enhancing people localisation in drone imagery for better crowd management by utilising every pixel in high-resolution images [0.0]
ポイント指向オブジェクトローカライゼーションに特化した新しいアプローチを提案する。
Pixel Distillモジュールは高精細画像の処理を強化するために導入された。
UP-COUNTと名付けられた新しいデータセットは、現代のドローン用途に合わせている。
論文 参考訳(メタデータ) (2025-02-06T12:16:22Z) - RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation [88.54817424560056]
局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。
DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。
事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。
微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。
論文 参考訳(メタデータ) (2024-06-27T06:38:56Z) - Large-Scale Person Detection and Localization using Overhead Fisheye
Cameras [40.004888590123954]
人検出と局所化のための,最初の大規模頭上魚眼データセットを提示する。
本研究では,魚眼者検出ネットワークを構築し,魚眼者検出ネットワークを構築した。
魚眼の位置決め液は、0.5mの精度で、0.1秒以内でFOVの全人物を特定できる。
論文 参考訳(メタデータ) (2023-07-17T05:36:01Z) - Self-similarity Driven Scale-invariant Learning for Weakly Supervised
Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。
本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。
PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-25T04:48:11Z) - Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - ARPD: Anchor-free Rotation-aware People Detection using Topview Fisheye
Camera [3.0868856870169625]
本研究では,魚眼画像中の任意回転者を検知する単一段アンカーフリー完全畳み込みネットワークARPDを提案する。
提案手法は最先端のアルゴリズムと非常に高速に動作しながら競合する。
論文 参考訳(メタデータ) (2022-01-25T05:49:50Z) - Efficient Pedestrian Detection in Top-View Fisheye Images Using
Compositions of Perspective View Patches [3.5706999675827413]
視界画像用に設計された既存の検出器は、トップビューの魚眼カメラで撮影された画像ではうまく機能しない。
提案手法では,魚眼画像から複数の視点ビューを生成し,合成画像を生成する。
この複合画像の歩行者は直立する傾向が強いため、遠近画像のために設計、訓練された既存の検出器は、追加の訓練なしで直接適用することができる。
いくつかの公開データセットにおける検出性能は、最先端の結果と良好に比較できる。
論文 参考訳(メタデータ) (2020-09-06T11:19:00Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images [13.290341167863495]
我々は、任意指向の有界ボックスを用いて人を検出する、RAPiDと呼ばれるエンドツーエンドの人検出手法を開発した。
我々の完全畳み込みニューラルネットワークは周期的損失回転関数を用いて各境界ボックスの角度を直接回帰する。
その結果,本手法は魚眼画像の3つのデータセットに対して,最先端の結果よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-23T23:47:18Z) - Learning to Detect Important People in Unlabelled Images for
Semi-supervised Important People Detection [85.91577271918783]
本稿では,部分的に注釈付けされた画像から重要な人物を検出することを提案する。
提案手法では,未注釈画像の個人に対して擬似ラベルを割り当てることが反復的に学習される。
評価のために2つの大規模データセットを収集した。
論文 参考訳(メタデータ) (2020-04-16T10:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。