論文の概要: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2211.11293v3
- Date: Sat, 22 Jun 2024 10:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 05:28:15.950814
- Title: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer
- Title(参考訳): 視野を超えて:Clip-recurrent Transformerによるシーンの可視性と知覚を高める
- Authors: Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Ze Wang, Kaiwei Wang,
- Abstract要約: FlowLensアーキテクチャは、光学フローを明示的に採用し、特徴伝達のための新しいクリップリカレントトランスフォーマーを暗黙的に組み込んでいる。
本稿では,自律走行車における視野拡大を目的としたオンライン映像インペインティングの概念を提案する。
オフラインおよびオンラインビデオのインペイントを含む実験とユーザスタディ、さらにはFo-Vの知覚タスクは、Flowsが最先端のパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 28.326852785609788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision sensors are widely applied in vehicles, robots, and roadside infrastructure. However, due to limitations in hardware cost and system size, camera Field-of-View (FoV) is often restricted and may not provide sufficient coverage. Nevertheless, from a spatiotemporal perspective, it is possible to obtain information beyond the camera's physical FoV from past video streams. In this paper, we propose the concept of online video inpainting for autonomous vehicles to expand the field of view, thereby enhancing scene visibility, perception, and system safety. To achieve this, we introduce the FlowLens architecture, which explicitly employs optical flow and implicitly incorporates a novel clip-recurrent transformer for feature propagation. FlowLens offers two key features: 1) FlowLens includes a newly designed Clip-Recurrent Hub with 3D-Decoupled Cross Attention (DDCA) to progressively process global information accumulated over time. 2) It integrates a multi-branch Mix Fusion Feed Forward Network (MixF3N) to enhance the precise spatial flow of local features. To facilitate training and evaluation, we derive the KITTI360 dataset with various FoV mask, which covers both outer- and inner FoV expansion scenarios. We also conduct both quantitative assessments and qualitative comparisons of beyond-FoV semantics and beyond-FoV object detection across different models. We illustrate that employing FlowLens to reconstruct unseen scenes even enhances perception within the field of view by providing reliable semantic context. Extensive experiments and user studies involving offline and online video inpainting, as well as beyond-FoV perception tasks, demonstrate that FlowLens achieves state-of-the-art performance. The source code and dataset are made publicly available at https://github.com/MasterHow/FlowLens.
- Abstract(参考訳): 視覚センサーは車両、ロボット、道路インフラストラクチャーに広く応用されている。
しかし、ハードウェアコストとシステムサイズに制限があるため、FoV(Field-of-View)はしばしば制限され、十分なカバレッジを提供することができない。
しかし、時空間的観点からは、過去のビデオストリームからカメラの物理的FoV以外の情報を得ることができる。
本稿では,車両の視野を拡大し,シーンの可視性,知覚性,システム安全性を向上するオンラインビデオインペインティングの概念を提案する。
これを実現するために、光学フローを明示的に用い、特徴伝搬のための新規なクリップリカレント変換器を暗黙的に組み込んだFlowLensアーキテクチャを導入する。
FlowLensには2つの重要な機能がある。
1) FlowLensは、3Dデカップリングされたクロスアテンション(DDCA)を備えた新たに設計されたClip-Recurrent Hubを含み、時間とともに蓄積されたグローバル情報を段階的に処理する。
2)MixF3N(MixF3N)とMixF3N(MixF3N)を統合し,局所的な特徴の正確な空間フローを向上させる。
トレーニングと評価を容易にするため,様々なFoVマスクを用いたKITTI360データセットを作成した。
また,FoV以上のセマンティクスの定量的評価と定性比較と,FoV以外のオブジェクト検出を異なるモデルで行う。
本研究では,FlowLensを用いて見えないシーンを再構成することで,信頼性の高いセマンティックコンテキストを提供することで,視野内での認識を向上することを示す。
オフラインおよびオンラインビデオのインペイントを含む大規模な実験とユーザスタディ、さらにはFoV以外の知覚タスクは、FlowLensが最先端のパフォーマンスを達成することを実証している。
ソースコードとデータセットはhttps://github.com/MasterHow/FlowLensで公開されている。
関連論文リスト
- E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Residual 3D Scene Flow Learning with Context-Aware Feature Extraction [11.394559627312743]
ユークリッド空間の文脈構造情報を活用するために,新しいコンテキスト対応集合 conv 層を提案する。
また, 遠距離移動に対処するため, 残留流微細化層に明示的な残留流学習構造を提案する。
提案手法は, これまでのすべての成果を, 少なくとも25%以上の知識に上回りながら, 最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-09-10T06:15:18Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - Knowledge Fusion Transformers for Video Action Recognition [0.0]
本稿では, 自己注意型特徴強調器を用いて, 分類を意図した映像クリップのコンテキストを3Dベースで表現し, 行動知識を融合する。
1つのストリームのみを使用して、あるいはほとんど、事前トレーニングがなければ、現在の最先端に近いパフォーマンスの道を開くことができる、と私たちは示しています。
論文 参考訳(メタデータ) (2020-09-29T05:13:45Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。