論文の概要: Balancing Domain Experts for Long-Tailed Camera-Trap Recognition
- arxiv url: http://arxiv.org/abs/2202.07215v2
- Date: Wed, 16 Feb 2022 01:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 13:09:20.265549
- Title: Balancing Domain Experts for Long-Tailed Camera-Trap Recognition
- Title(参考訳): ロングテールカメラトラップ認識のためのドメインエキスパートのバランス
- Authors: Byeongjun Park, Jeongsoo Kim, Seungju Cho, Heeseon Kim, Changick Kim
- Abstract要約: 統合されたフレームワークを提案し、長い尾のカメラトラップ認識のための2つのデータセットを導入する。
まずドメインの専門家を設計し、各専門家がデータ不均衡に起因する不完全な決定境界のバランスをとることを学びます。
また,複数フレームのクラスアクティベーションマップが入力画像の光フローマップと一致することを期待して,移動物体にフォーカスするフロー一貫性損失を提案する。
- 参考スコア(独自算出の注目度): 19.656483623175127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label distributions in camera-trap images are highly imbalanced and
long-tailed, resulting in neural networks tending to be biased towards
head-classes that appear frequently. Although long-tail learning has been
extremely explored to address data imbalances, few studies have been conducted
to consider camera-trap characteristics, such as multi-domain and multi-frame
setup. Here, we propose a unified framework and introduce two datasets for
long-tailed camera-trap recognition. We first design domain experts, where each
expert learns to balance imperfect decision boundaries caused by data
imbalances and complement each other to generate domain-balanced decision
boundaries. Also, we propose a flow consistency loss to focus on moving
objects, expecting class activation maps of multi-frame matches the flow with
optical flow maps for input images. Moreover, two long-tailed camera-trap
datasets, WCS-LT and DMZ-LT, are introduced to validate our methods.
Experimental results show the effectiveness of our framework, and proposed
methods outperform previous methods on recessive domain samples.
- Abstract(参考訳): カメラトラップ画像のラベル分布は高度に不均衡で長い尾を持つため、ニューラルネットワークは頻繁に現れるヘッドクラスに偏りがちである。
ロングテール学習はデータの不均衡に対処するために非常に研究されてきたが、マルチドメインやマルチフレームなどのカメラトラップ特性を検討する研究はほとんど行われていない。
本稿では,統合フレームワークを提案し,ロングテールカメラトラップ認識のための2つのデータセットを提案する。
まずドメインエキスパートを設計し、各専門家がデータ不均衡に起因する不完全な決定境界のバランスをとることを学び、互いに補完してドメインバランス決定境界を生成する。
また,複数フレームのクラスアクティベーションマップが入力画像のオプティカルフローマップと一致することを期待して,移動物体に着目したフロー一貫性ロスを提案する。
さらに,WCS-LTとDMZ-LTの2つの長尾カメラトラップデータセットを導入し,本手法の有効性を検証した。
実験の結果,本手法の有効性が示され,提案手法は先行手法よりも優れていた。
関連論文リスト
- Object Detection in Aerial Images in Scarce Data Regimes [0.0]
小さな物体は、より多数の空中画像において、自然画像と空中画像の間の明らかなパフォーマンスギャップの原因となっている。
FSOD法の訓練と評価を改善するスケール適応型ボックス類似度基準を提案する。
また、計量学習と微調整に基づく2つの異なるアプローチによる汎用FSODにも貢献する。
論文 参考訳(メタデータ) (2023-10-16T14:16:47Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Unsupervised Light Field Depth Estimation via Multi-view Feature
Matching with Occlusion Prediction [15.421219881815956]
監督訓練に十分な深度ラベルを得ることは費用がかかる。
本稿では,LF画像から深度を推定するための教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T06:11:17Z) - Robustifying the Multi-Scale Representation of Neural Radiance Fields [86.69338893753886]
実世界の画像の両問題を克服するために,頑健なマルチスケールニューラルラジアンス場表現手法を提案する。
提案手法は,NeRFにインスパイアされたアプローチを用いて,マルチスケール画像効果とカメラ位置推定問題に対処する。
例えば、日常的に取得したマルチビュー画像からオブジェクトの正確な神経表現を行うためには、カメラの正確な位置推定が不可欠であることを示す。
論文 参考訳(メタデータ) (2022-10-09T11:46:45Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - Damage detection using in-domain and cross-domain transfer learning [4.111375269316102]
橋梁の損傷検出のためのドメイン内およびドメイン間移動学習戦略の組み合わせを提案する。
クロスドメインとインドメイン転送の組み合わせは、小さなデータセットであっても、永続的に優れたパフォーマンスを示すことを示す。
論文 参考訳(メタデータ) (2021-02-07T17:36:27Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Introducing Pose Consistency and Warp-Alignment for Self-Supervised 6D
Object Pose Estimation in Color Images [38.9238085806793]
オブジェクトの6Dポーズを推定する最も成功したアプローチは、現実世界の画像で注釈付きのポーズで学習を監督することによって、ニューラルネットワークを訓練する。
既存のニューラルネットワークベースのアプローチの上に適用可能な2段階の6Dオブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-27T11:53:38Z) - Seismic horizon detection with neural networks [62.997667081978825]
本稿では,複数の実地震立方体上での地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
本研究の主な貢献は,複数実地震立方体における地平線検出にバイナリセグメンテーションを適用し,予測モデルのキューブ間一般化に着目したオープンソースの研究である。
論文 参考訳(メタデータ) (2020-01-10T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。