論文の概要: Exploiting the Distortion-Semantic Interaction in Fisheye Data
- arxiv url: http://arxiv.org/abs/2305.00079v1
- Date: Fri, 28 Apr 2023 20:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:18:13.893728
- Title: Exploiting the Distortion-Semantic Interaction in Fisheye Data
- Title(参考訳): 魚眼データにおける歪み・セマンティクス相互作用の活用
- Authors: Kiran Kokilepersaud, Mohit Prabhushankar, Yavuz Yarici, Ghassan
AlRegib, Armin Parchami
- Abstract要約: 魚眼のデータは他のタイプのカメラよりも広い視野の利点があるが、これは高い歪みを犠牲にしている。
中心からさらに離れたオブジェクトは、モデルがセマンティックコンテキストを特定するのが難しくなる変形を示す。
画像の中心から物体の距離に基づいて歪みクラスラベルを抽出し,この関係を利用する手法を提案する。
次に、同じ意味クラスのオブジェクトと互いに近い歪みクラスのオブジェクトを制約する重み付けされた対照的な損失で、バックボーンの表現空間を形成する。
- 参考スコア(独自算出の注目度): 12.633032175875865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a methodology to shape a fisheye-specific
representation space that reflects the interaction between distortion and
semantic context present in this data modality. Fisheye data has the wider
field of view advantage over other types of cameras, but this comes at the
expense of high radial distortion. As a result, objects further from the center
exhibit deformations that make it difficult for a model to identify their
semantic context. While previous work has attempted architectural and training
augmentation changes to alleviate this effect, no work has attempted to guide
the model towards learning a representation space that reflects this
interaction between distortion and semantic context inherent to fisheye data.
We introduce an approach to exploit this relationship by first extracting
distortion class labels based on an object's distance from the center of the
image. We then shape a backbone's representation space with a weighted
contrastive loss that constrains objects of the same semantic class and
distortion class to be close to each other within a lower dimensional embedding
space. This backbone trained with both semantic and distortion information is
then fine-tuned within an object detection setting to empirically evaluate the
quality of the learnt representation. We show this method leads to performance
improvements by as much as 1.1% mean average precision over standard object
detection strategies and .6% improvement over other state of the art
representation learning approaches.
- Abstract(参考訳): 本研究では,このデータモダリティに存在する歪みと意味的文脈の相互作用を反映した魚眼特異的表現空間を形成する手法を提案する。
魚眼のデータは他の種類のカメラよりも広い視野の利点があるが、これは高い放射歪みを犠牲にしている。
その結果、中心からのオブジェクトは変形を示し、モデルがそれらの意味的コンテキストを識別することが困難になる。
以前の研究は、この効果を緩和するためにアーキテクチャとトレーニングの強化の変更を試みたが、魚眼データに固有の歪みと意味的文脈の間の相互作用を反映した表現空間を学ぶためのモデルを導こうとする試みは行われていない。
画像の中心から物体の距離に基づいて歪みクラスラベルを抽出し,この関係を利用する手法を提案する。
次に、同じ意味クラスのオブジェクトと下次元埋め込み空間内で互いに近接する歪みクラスのオブジェクトを制約する重み付き対照的な損失で、バックボーンの表現空間を形成する。
セマンティクス情報と歪み情報の両方でトレーニングされたこのバックボーンは、オブジェクト検出設定内で微調整され、学習表現の品質を実証的に評価する。
本手法は,標準対象検出手法よりも1.1%平均精度が向上し,他の技術表現学習手法よりも.6%向上したことを示す。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Uncovering the Background-Induced bias in RGB based 6-DoF Object Pose
Estimation [5.30320006562872]
近年,産業環境におけるデータ駆動手法の利用傾向が高まっている。
ビデオや画像の操作が機械学習手法の有効性にどのように影響するかを理解することが重要である。
ケーススタディは,6次元ポーズ推定コンテキストにおける技術状況を考慮したLinemodデータセットを正確に解析することを目的としている。
論文 参考訳(メタデータ) (2023-04-17T12:54:20Z) - CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised
Learning of Depth and Pose [13.581694284209885]
光度差は、未ラベルのモノクロビデオから深度とカメラのポーズを推定するためにニューラルネットワークを訓練するために使用される。
本稿では,アフィン変換とビュー合成によって生じる流れ場と深さ構造の違いを利用して,移動物体とオクルージョンを取り扱う。
ネットワークを追加することなく、より意味的な情報と文脈的な情報を持つ特徴の差を測定することにより、テクスチャレス領域がモデル最適化に与える影響を緩和する。
論文 参考訳(メタデータ) (2022-12-12T12:18:24Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。