論文の概要: From Chaos Comes Order: Ordering Event Representations for Object
Detection
- arxiv url: http://arxiv.org/abs/2304.13455v1
- Date: Wed, 26 Apr 2023 11:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 14:29:13.085724
- Title: From Chaos Comes Order: Ordering Event Representations for Object
Detection
- Title(参考訳): From Chaos Comes Order: オブジェクト検出のためのイベント表現の順序付け
- Authors: Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza
- Abstract要約: 本稿では,Gromov-Wasserstein Discrepancy (GWD) に基づいて,生イベントとそれらの表現の最良の表現を選択する方法を示す。
高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。
オブジェクト検出において、最適化された表現は1Mpxデータセットでは1.9% mAP、Gen1データセットでは8.6% mAPで既存の表現より優れています。
- 参考スコア(独自算出の注目度): 54.48777747771018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, state-of-the-art deep neural networks that process events first
convert them into dense, grid-like input representations before using an
off-the-shelf network. However, selecting the appropriate representation for
the task traditionally requires training a neural network for each
representation and selecting the best one based on the validation score, which
is very time-consuming. In this work, we eliminate this bottleneck by selecting
the best representation based on the Gromov-Wasserstein Discrepancy (GWD)
between the raw events and their representation. It is approximately 200 times
faster to compute than training a neural network and preserves the task
performance ranking of event representations across multiple representations,
network backbones, and datasets. This means that finding a representation with
a high task score is equivalent to finding a representation with a low GWD. We
use this insight to, for the first time, perform a hyperparameter search on a
large family of event representations, revealing new and powerful
representations that exceed the state-of-the-art. On object detection, our
optimized representation outperforms existing representations by 1.9% mAP on
the 1 Mpx dataset and 8.6% mAP on the Gen1 dataset and even outperforms the
state-of-the-art by 1.8% mAP on Gen1 and state-of-the-art feed-forward methods
by 6.0% mAP on the 1 Mpx dataset. This work opens a new unexplored field of
explicit representation optimization for event-based learning methods.
- Abstract(参考訳): 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。
しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。
本研究では,Gromov-Wasserstein Discrepancy (GWD) に基づいた表現を生イベントとそれらの表現の間で選択することで,このボトルネックを解消する。
ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセットにわたるイベント表現のタスクパフォーマンスランキングを保存する。
つまり、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。
私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。
オブジェクト検出において、最適化された表現は、1Mpxデータセットでは1.9% mAP、Gen1データセットでは8.6% mAP、Gen1では1.8% mAP、そして1Mpxデータセットでは6.0% mAPの最先端フィードフォワードメソッドでは、既存の表現よりも優れています。
この研究は、イベントベース学習手法の明示的表現最適化の新しい未探索分野を開く。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Learning to Generate Parameters of ConvNets for Unseen Image Data [36.68392191824203]
ConvNetは大量の画像データに依存しており、ネットワークパラメータを学習するための反復最適化アルゴリズムを採用している。
本稿では,新しい学習パラダイムを提案し,予測タスクにConvNetのパラメータ学習を定式化する。
提案手法は,2種類の画像データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:26:18Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - ES-ImageNet: A Million Event-Stream Classification Dataset for Spiking
Neural Networks [12.136368750042688]
我々は,Omnidirectional Discrete Gradient (ODG) と呼ばれる高速かつ効率的なアルゴリズムを提案し,一般的なコンピュータビジョンデータセットであるILSVRC2012をイベントストリーム(ES)バージョンに変換する。
このようにして、ES-ImageNetは、現在、他のニューロモーフィック分類データセットの数十倍の大きさで、ソフトウェアによって完全に生成される。
論文 参考訳(メタデータ) (2021-10-23T12:56:23Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - DHOG: Deep Hierarchical Object Grouping [0.0]
本研究では,相互情報量(勾配最適化など)を最大化するための欲求的あるいは局所的手法が,相互情報量規準の局所的最適性を発見することを示す。
本稿では,画像の多数の異なる表現を階層的順序で計算するディープ階層的オブジェクトグループ化(DHOG)を提案する。
これらの表現は、下層のオブジェクトクラスにグループ化する下流のタスクとよく一致している。
論文 参考訳(メタデータ) (2020-03-13T14:11:48Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。