論文の概要: Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input
- arxiv url: http://arxiv.org/abs/2406.03439v1
- Date: Wed, 5 Jun 2024 16:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:22:00.325791
- Title: Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input
- Title(参考訳): Text-to-Events: 条件付きテキスト入力からの合成イベントカメラストリーム
- Authors: Joachim Ott, Zuowen Wang, Shih-Chii Liu,
- Abstract要約: イベントカメラは、低レイテンシとスパース出力応答を持つ視覚センサーを必要とするタスクに有利である。
本稿では,テキスト・ツー・Xモデルを用いてラベル付きイベント・データセットを新たに作成する方法を報告する。
本モデルでは,異なる文文によって引き起こされる人間のジェスチャーのリアルなイベントシーケンスを生成できることを実証する。
- 参考スコア(独自算出の注目度): 8.365349007799296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras are advantageous for tasks that require vision sensors with low-latency and sparse output responses. However, the development of deep network algorithms using event cameras has been slow because of the lack of large labelled event camera datasets for network training. This paper reports a method for creating new labelled event datasets by using a text-to-X model, where X is one or multiple output modalities, in the case of this work, events. Our proposed text-to-events model produces synthetic event frames directly from text prompts. It uses an autoencoder which is trained to produce sparse event frames representing event camera outputs. By combining the pretrained autoencoder with a diffusion model architecture, the new text-to-events model is able to generate smooth synthetic event streams of moving objects. The autoencoder was first trained on an event camera dataset of diverse scenes. In the combined training with the diffusion model, the DVS gesture dataset was used. We demonstrate that the model can generate realistic event sequences of human gestures prompted by different text statements. The classification accuracy of the generated sequences, using a classifier trained on the real dataset, ranges between 42% to 92%, depending on the gesture group. The results demonstrate the capability of this method in synthesizing event datasets.
- Abstract(参考訳): イベントカメラは、低レイテンシとスパース出力応答を持つ視覚センサーを必要とするタスクに有利である。
しかし、イベントカメラを用いたディープ・ネットワーク・アルゴリズムの開発は、大規模なラベル付きイベントカメラデータセットが欠如しているため、遅い。
本稿では,テキスト・ツー・Xモデルを用いて新しいラベル付きイベント・データセットを作成する手法について述べる。
提案手法は,テキストプロンプトから直接合成イベントフレームを生成する。
オートエンコーダを使用して、イベントカメラ出力を表すスパースイベントフレームを生成するように訓練されている。
事前訓練されたオートエンコーダと拡散モデルアーキテクチャを組み合わせることで,移動物体のスムーズな合成イベントストリームを生成することができる。
オートエンコーダは、さまざまなシーンのイベントカメラデータセットで最初にトレーニングされた。
拡散モデルと組み合わせたトレーニングでは、DVSジェスチャーデータセットが使用された。
本モデルでは,異なる文文によって引き起こされる人間のジェスチャーのリアルなイベントシーケンスを生成できることを実証する。
生成したシーケンスの分類精度は、実際のデータセットで訓練された分類器を用いて、ジェスチャー群によって42%から92%の範囲で変化している。
その結果,イベントデータセットの合成における本手法の有効性が示された。
関連論文リスト
- Event Camera Data Dense Pre-training [12.27119620314554]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - Rethinking Event-based Human Pose Estimation with 3D Event
Representations [26.592295349210787]
イベントカメラは、困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。
我々は、Rasterized Event Point CloudとDecoupled Event Voxelの2つの3Dイベント表現を紹介します。
EV-3DPW実験により,従来のRGB画像やイベントフレーム技術と比較して,提案手法のロバスト性を示した。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - EGVD: Event-Guided Video Deraining [57.59935209162314]
本稿では,ビデオデライニングのためのイベントカメラの可能性を解放するエンド・ツー・エンドの学習ネットワークを提案する。
雨の多いビデオと時間的に同期されたイベントストリームからなる現実世界のデータセットを構築します。
論文 参考訳(メタデータ) (2023-09-29T13:47:53Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Event Camera Data Pre-training [14.77724035068357]
我々のモデルは、自己教師付き学習フレームワークであり、ペア化されたイベントカメラデータと自然なRGBイメージをトレーニングに使用しています。
我々はN-ImageNetデータセットで64.83%でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-01-05T06:32:50Z) - Bina-Rep Event Frames: a Simple and Effective Representation for
Event-based cameras [1.6114012813668934]
ビナ・レップ(Bina-Rep)は、イベントカメラからのイベントの非同期ストリームを、スパースで表現豊かなイベントフレームのシーケンスに変換するシンプルな表現法である。
本手法では,元のストリームにおけるイベント順序に関する保持情報により,より表現力のあるイベントフレームを抽出することができる。
論文 参考訳(メタデータ) (2022-02-28T10:23:09Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream [80.15360180192175]
単眼ビデオからの3d手ポーズ推定は、長年の課題である。
我々は1つのイベントカメラ、すなわち明るさ変化に反応する非同期視覚センサを使用して、初めてそれに対処する。
従来,単一のrgbカメラや深度カメラでは表示されなかった特徴がある。
論文 参考訳(メタデータ) (2020-12-11T16:45:34Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。