論文の概要: Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection
- arxiv url: http://arxiv.org/abs/2205.03346v1
- Date: Fri, 6 May 2022 16:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:23:26.421213
- Title: Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection
- Title(参考訳): 直交する正則性を持つマルチタスクAETによる暗黒物体検出
- Authors: Ziteng Cui, Guo-Jun Qi, Lin Gu, Shaodi You, Zenghui Zhang, Tatsuya
Harada
- Abstract要約: 暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 84.52197307286681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dark environment becomes a challenge for computer vision algorithms owing to
insufficient photons and undesirable noise. To enhance object detection in a
dark environment, we propose a novel multitask auto encoding transformation
(MAET) model which is able to explore the intrinsic pattern behind illumination
translation. In a self-supervision manner, the MAET learns the intrinsic visual
structure by encoding and decoding the realistic illumination-degrading
transformation considering the physical noise model and image signal processing
(ISP).
Based on this representation, we achieve the object detection task by
decoding the bounding box coordinates and classes. To avoid the
over-entanglement of two tasks, our MAET disentangles the object and degrading
features by imposing an orthogonal tangent regularity. This forms a parametric
manifold along which multitask predictions can be geometrically formulated by
maximizing the orthogonality between the tangents along the outputs of
respective tasks. Our framework can be implemented based on the mainstream
object detection architecture and directly trained end-to-end using normal
target detection datasets, such as VOC and COCO. We have achieved the
state-of-the-art performance using synthetic and real-world datasets. Code is
available at https://github.com/cuiziteng/MAET.
- Abstract(参考訳): 暗黒環境は、光子不足と望ましくないノイズのため、コンピュータビジョンアルゴリズムにとって課題となる。
暗環境における物体検出を強化するために,照明翻訳の背後にある内在的なパターンを探索可能な,新しいマルチタスクオートエンコーディング変換(maet)モデルを提案する。
物理ノイズモデルと画像信号処理(ISP)を考慮した現実的な照明劣化変換を符号化し、復号化することにより、MAETは本質的な視覚構造を学ぶ。
この表現に基づき、バウンディングボックス座標とクラスをデコードすることにより、オブジェクト検出タスクを実現する。
2つのタスクの過剰絡みを避けるため、MAETは直交接正則性を付与することにより対象を歪め、特徴を劣化させる。
これは、各タスクの出力に沿って接点間の直交性を最大化することにより、多タスク予測を幾何学的に定式化できるパラメトリック多様体を形成する。
我々のフレームワークは、VOCやCOCOといった通常のターゲット検出データセットを用いて、主流のオブジェクト検出アーキテクチャと直接訓練されたエンドツーエンドに基づいて実装することができる。
合成および実世界のデータセットを用いて最先端のパフォーマンスを実現した。
コードはhttps://github.com/cuiziteng/MAETで入手できる。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - ObjFormer: Learning Land-Cover Changes From Paired OSM Data and Optical High-Resolution Imagery via Object-Guided Transformer [31.46969412692045]
本稿では,ペアOSMデータと光学画像を用いた土地被覆変化の直接検出の先駆者となる。
本稿では、オブジェクトベース画像解析(OBIA)技術と高度な視覚変換器アーキテクチャを自然に組み合わせたオブジェクト誘導変換器(Former)を提案する。
OpenMapCDと呼ばれる大規模なベンチマークデータセットは、詳細な実験を行うために構築されている。
論文 参考訳(メタデータ) (2023-10-04T09:26:44Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。