論文の概要: BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events
- arxiv url: http://arxiv.org/abs/2410.20451v1
- Date: Sun, 27 Oct 2024 13:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:39.277485
- Title: BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events
- Title(参考訳): BlinkVision:RGBフレームとイベントを用いた光フロー,シーンフロー,ポイントトラッキング推定のためのベンチマーク
- Authors: Yijin Li, Yichen Shen, Zhaoyang Huang, Shuo Chen, Weikang Bian, Xiaoyu Shi, Fu-Yun Wang, Keqiang Sun, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, Hongsheng Li,
- Abstract要約: 我々はBlinkVisionを提案する。BlinkVisionは大規模かつ多彩なベンチマークで、複数のモダリティと高密度対応アノテーションを持つ。
BlinkVisionは、フォトリアリスティックなデータを提供し、カメラの揺らぎや変形など、さまざまな自然主義的な要素をカバーしている。
画像ベースとイベントベースの両方の3種類の対応タスク(光学フロー、点追跡、シーンフロー推定)の広範なベンチマークを可能にする。
- 参考スコア(独自算出の注目度): 72.25918104830252
- License:
- Abstract: Recent advances in event-based vision suggest that these systems complement traditional cameras by providing continuous observation without frame rate limitations and a high dynamic range, making them well-suited for correspondence tasks such as optical flow and point tracking. However, there is still a lack of comprehensive benchmarks for correspondence tasks that include both event data and images. To address this gap, we propose BlinkVision, a large-scale and diverse benchmark with multiple modalities and dense correspondence annotations. BlinkVision offers several valuable features: 1) Rich modalities: It includes both event data and RGB images. 2) Extensive annotations: It provides dense per-pixel annotations covering optical flow, scene flow, and point tracking. 3) Large vocabulary: It contains 410 everyday categories, sharing common classes with popular 2D and 3D datasets like LVIS and ShapeNet. 4) Naturalistic: It delivers photorealistic data and covers various naturalistic factors, such as camera shake and deformation. BlinkVision enables extensive benchmarks on three types of correspondence tasks (optical flow, point tracking, and scene flow estimation) for both image-based and event-based methods, offering new observations, practices, and insights for future research. The benchmark website is https://www.blinkvision.net/.
- Abstract(参考訳): イベントベースビジョンの最近の進歩は、これらのシステムがフレームレート制限のない連続観察と高いダイナミックレンジを提供することで、従来のカメラを補完し、光学フローや点追跡といった対応タスクに適していることを示唆している。
しかし、イベントデータと画像の両方を含む対応タスクの包括的なベンチマークがまだ存在しない。
このギャップに対処するために、BlinkVisionを提案する。BlinkVisionは大規模で多様なベンチマークで、複数のモダリティと高密度対応アノテーションがある。
BlinkVisionにはいくつかの重要な機能があります。
1) リッチなモダリティ: イベントデータとRGBイメージの両方を含む。
2) 広範アノテーション:光学的フロー,シーンフロー,ポイントトラッキングを網羅した,ピクセル単位の高密度アノテーションを提供する。
3) 大規模な語彙: LVISやShapeNetといった一般的な2Dおよび3Dデータセットと共通クラスを共有する410の毎日のカテゴリを含む。
4) カメラの揺らぎや変形など,さまざまな自然主義的要因をカバーする。
BlinkVisionは、画像ベースとイベントベースの両方の3種類の対応タスク(光学フロー、ポイントトラッキング、シーンフロー推定)の広範なベンチマークを可能にし、将来の研究に新たな観察、プラクティス、洞察を提供する。
ベンチマークウェブサイトはhttps://www.blinkvision.net/。
関連論文リスト
- BlinkTrack: Feature Tracking over 100 FPS via Events and Images [50.98675227695814]
本稿では,RGB画像とイベントデータを統合した新しいフレームワークであるBlinkTrackを提案する。
本手法は,従来のカルマンフィルタを学習ベースのフレームワークに拡張し,イベントおよびイメージの分岐において微分可能なカルマンフィルタを利用する。
実験の結果、BlinkTrackは既存のイベントベースの手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-09-26T15:54:18Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - DarkVision: A Benchmark for Low-light Image/Video Perception [44.94878263751042]
画像強調とオブジェクト検出の両方に、DarkVisionという、最初のマルチ照度、マルチカメラ、低照度データセットをコントリビュートする。
データセットは明るい暗黒のペアで構成され、900の静的なシーンと15のカテゴリのオブジェクト、32のダイナミックなシーンと4つのカテゴリのオブジェクトで構成されている。
それぞれのシーンで、画像/ビデオは3つのグレードのカメラを使用して5つの照度レベルで撮影され、平均光子を確実に推定することができる。
論文 参考訳(メタデータ) (2023-01-16T05:55:59Z) - Residual 3D Scene Flow Learning with Context-Aware Feature Extraction [11.394559627312743]
ユークリッド空間の文脈構造情報を活用するために,新しいコンテキスト対応集合 conv 層を提案する。
また, 遠距離移動に対処するため, 残留流微細化層に明示的な残留流学習構造を提案する。
提案手法は, これまでのすべての成果を, 少なくとも25%以上の知識に上回りながら, 最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-09-10T06:15:18Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。