論文の概要: Temporal Binary Representation for Event-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2010.08946v1
- Date: Sun, 18 Oct 2020 09:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:13:57.965832
- Title: Temporal Binary Representation for Event-Based Action Recognition
- Title(参考訳): イベントベース行動認識のための時空間バイナリ表現
- Authors: Simone Undri Innocenti, Federico Becattini, Federico Pernici, Alberto
Del Bimbo
- Abstract要約: 本稿では,イベントカメラの出力を従来のコンピュータビジョンアルゴリズムで処理可能なフレームに変換するイベント集約戦略を提案する。
我々は,一般的なDVS128ジェスチャデータセットを用いて,ジェスチャー認識の課題に適用し,その結果の状態を把握した。
- 参考スコア(独自算出の注目度): 22.141060247216874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present an event aggregation strategy to convert the output
of an event camera into frames processable by traditional Computer Vision
algorithms. The proposed method first generates sequences of intermediate
binary representations, which are then losslessly transformed into a compact
format by simply applying a binary-to-decimal conversion. This strategy allows
us to encode temporal information directly into pixel values, which are then
interpreted by deep learning models. We apply our strategy, called Temporal
Binary Representation, to the task of Gesture Recognition, obtaining state of
the art results on the popular DVS128 Gesture Dataset. To underline the
effectiveness of the proposed method compared to existing ones, we also collect
an extension of the dataset under more challenging conditions on which to
perform experiments.
- Abstract(参考訳): 本稿では,イベントカメラの出力を従来のコンピュータビジョンアルゴリズムで処理可能なフレームに変換するイベント集約戦略を提案する。
提案手法は、まず中間二項表現の列を生成し、その列を単純に二項対決定変換を適用することで、損失なくコンパクトな形式に変換する。
この戦略により、時間情報をピクセル値に直接エンコードし、深層学習モデルで解釈することができる。
我々は,時空間バイナリ表現と呼ばれる手法をジェスチャー認識のタスクに適用し,一般的なDVS128ジェスチャーデータセット上でのアート結果の状態を把握した。
提案手法の有効性を既存手法と比較するために,実験を行う上でより困難な条件下でデータセットの拡張も収集する。
関連論文リスト
- Data-efficient Event Camera Pre-training via Disentangled Masked
Modeling [20.987277885575963]
イベントカメラのための新しいデータ教師付きボクセルベースの自己教師付き学習手法を提案する。
提案手法は,時間的情報を犠牲にしたり,ペア画像データを直接利用したりする従来の手法の限界を克服する。
優れた一般化性能を示し、パラメータが少なく、計算コストも低い様々なタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T10:02:25Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文 参考訳(メタデータ) (2024-01-20T22:04:28Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Bina-Rep Event Frames: a Simple and Effective Representation for
Event-based cameras [1.6114012813668934]
ビナ・レップ(Bina-Rep)は、イベントカメラからのイベントの非同期ストリームを、スパースで表現豊かなイベントフレームのシーケンスに変換するシンプルな表現法である。
本手法では,元のストリームにおけるイベント順序に関する保持情報により,より表現力のあるイベントフレームを抽出することができる。
論文 参考訳(メタデータ) (2022-02-28T10:23:09Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。