Fugu-MT 論文翻訳(概要): From Chaos Comes Order: Ordering Event Representations for Object Recognition and Detection

論文の概要: From Chaos Comes Order: Ordering Event Representations for Object Recognition and Detection

arxiv url: http://arxiv.org/abs/2304.13455v4
Date: Wed, 30 Aug 2023 19:44:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 20:18:35.913293
Title: From Chaos Comes Order: Ordering Event Representations for Object Recognition and Detection
Title（参考訳）: chaos comes order - オブジェクト認識と検出のためのイベント表現の順序付け
Authors: Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza
Abstract要約: 本稿では、Gromov-Wasserstein Discrepancy(GWD)に基づくタスクの適切な表現を、生イベントとそれらの表現の間で選択する方法を示す。ニューラルネットワークのトレーニングよりも計算が約200倍高速で、イベント表現のタスクパフォーマンスランキングを保存する。最適化された表現は1Mpxデータセットで1.7mAP、Gen1データセットで0.3mAP、確立された2つのオブジェクト検出ベンチマークで3.8%、Mini N-ImageNetベンチマークで3.8%、既存の表現よりも優れています。
参考スコア（独自算出の注目度）: 29.653946064645705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. This work eliminates this bottleneck by selecting representations based on the Gromov-Wasserstein Discrepancy (GWD) between raw events and their representation. It is about 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, datasets, and tasks. Thus finding representations with high task scores is equivalent to finding representations with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. Our optimized representations outperform existing representations by 1.7 mAP on the 1 Mpx dataset and 0.3 mAP on the Gen1 dataset, two established object detection benchmarks, and reach a 3.8% higher classification score on the mini N-ImageNet benchmark. Moreover, we outperform state-of-the-art by 2.1 mAP on Gen1 and state-of-the-art feed-forward methods by 6.0 mAP on the 1 Mpx datasets. This work opens a new unexplored field of explicit representation optimization for event-based learning.
Abstract（参考訳）: 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。この研究は、Gromov-Wasserstein Discrepancy (GWD) に基づく表現を生イベントとそれらの表現の間で選択することで、このボトルネックを取り除く。ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセット、タスクにわたるイベント表現のタスクパフォーマンスランキングを保存する。したがって、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。 1mpxデータセットの1.7マップ、gen1データセットの0.3マップ、確立された2つのオブジェクト検出ベンチマーク、そしてmini n-imagenetベンチマークの3.8%高い分類スコアに達した。さらに、Gen1では2.1mAP、1Mpxデータセットでは6.0mAPで最先端のフィードフォワード法より優れています。この作業は、イベントベース学習のための明示的な表現最適化の新たな未検討分野を開く。

関連論文リスト

Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs [0.0]
イベントカメラは、従来のフレームベースのセンサーよりも大きな利点がある。疎結合で非同期なイベントストリームを効果的に処理することは依然として難しい。本稿では,新しい自己監視イベント表現(SSER)手法を提案する。
論文参考訳（メタデータ） (2025-05-12T13:32:08Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Learning to Generate Parameters of ConvNets for Unseen Image Data [36.68392191824203]
ConvNetは大量の画像データに依存しており、ネットワークパラメータを学習するための反復最適化アルゴリズムを採用している。本稿では,新しい学習パラダイムを提案し,予測タスクにConvNetのパラメータ学習を定式化する。提案手法は,2種類の画像データセットに対して有効であることを示す。
論文参考訳（メタデータ） (2023-10-18T10:26:18Z)
Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文参考訳（メタデータ） (2022-04-04T05:16:41Z)
ES-ImageNet: A Million Event-Stream Classification Dataset for Spiking Neural Networks [12.136368750042688]
我々は,Omnidirectional Discrete Gradient (ODG) と呼ばれる高速かつ効率的なアルゴリズムを提案し,一般的なコンピュータビジョンデータセットであるILSVRC2012をイベントストリーム(ES)バージョンに変換する。このようにして、ES-ImageNetは、現在、他のニューロモーフィック分類データセットの数十倍の大きさで、ソフトウェアによって完全に生成される。
論文参考訳（メタデータ） (2021-10-23T12:56:23Z)
Single Object Tracking through a Fast and Effective Single-Multiple Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文参考訳（メタデータ） (2021-03-28T11:02:14Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)
CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2020-03-24T04:55:43Z)
Selecting Relevant Features from a Multi-domain Representation for Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文参考訳（メタデータ） (2020-03-20T15:44:17Z)
DHOG: Deep Hierarchical Object Grouping [0.0]
本研究では,相互情報量(勾配最適化など)を最大化するための欲求的あるいは局所的手法が,相互情報量規準の局所的最適性を発見することを示す。本稿では,画像の多数の異なる表現を階層的順序で計算するディープ階層的オブジェクトグループ化(DHOG)を提案する。これらの表現は、下層のオブジェクトクラスにグループ化する下流のタスクとよく一致している。
論文参考訳（メタデータ） (2020-03-13T14:11:48Z)
R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文参考訳（メタデータ） (2016-05-20T15:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。