論文の概要: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with
Clip-Recurrent Transformer
- arxiv url: http://arxiv.org/abs/2211.11293v2
- Date: Thu, 30 Nov 2023 07:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 23:19:31.361807
- Title: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with
Clip-Recurrent Transformer
- Title(参考訳): 視野を超えて:Clip-recurrent Transformerによるシーンの可視性と知覚を高める
- Authors: Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Huajian Ni, Kaiwei Wang
- Abstract要約: FlowLensアーキテクチャは、光学フローを明示的に採用し、特徴伝達のための新しいクリップリカレントトランスフォーマーを暗黙的に組み込んでいる。
FlowLensは、信頼性のあるコンテキストを提供することで、視野内での認識を高めることも示しています。
オフラインおよびオンラインビデオのインペイントを含む実験とユーザスタディ、さらにはFo-Vの知覚タスクは、Flowsが最先端のパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 19.00652560208197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision sensors are widely applied in vehicles, robots, and roadside
infrastructure. However, due to limitations in hardware cost and system size,
camera Field-of-View (FoV) is often restricted and may not provide sufficient
coverage. Nevertheless, from a spatiotemporal perspective, it is possible to
obtain information beyond the camera's physical FoV from past video streams. In
this paper, we propose the concept of online video inpainting for autonomous
vehicles to expand the field of view, thereby enhancing scene visibility,
perception, and system safety. To achieve this, we introduce the FlowLens
architecture, which explicitly employs optical flow and implicitly incorporates
a novel clip-recurrent transformer for feature propagation. FlowLens offers two
key features: 1) FlowLens includes a newly designed Clip-Recurrent Hub with
3D-Decoupled Cross Attention (DDCA) to progressively process global information
accumulated over time. 2) It integrates a multi-branch Mix Fusion Feed Forward
Network (MixF3N) to enhance the precise spatial flow of local features. To
facilitate training and evaluation, we derive the KITTI360 dataset with various
FoV mask, which covers both outer- and inner FoV expansion scenarios. We also
conduct quantitative assessments of beyond-FoV semantics across different
models and perform qualitative comparisons of beyond-FoV object detection. We
illustrate that employing FlowLens to reconstruct unseen scenes even enhances
perception within the field of view by providing reliable semantic context.
Extensive experiments and user studies involving offline and online video
inpainting, as well as beyond-FoV perception tasks, demonstrate that FlowLens
achieves state-of-the-art performance. The source code and dataset are made
publicly available at https://github.com/MasterHow/FlowLens.
- Abstract(参考訳): 視覚センサーは車両、ロボット、道路インフラストラクチャーに広く応用されている。
しかし、ハードウェアコストとシステムサイズに制限があるため、FoV(Field-of-View)はしばしば制限され、十分なカバレッジを提供することができない。
しかし、時空間的観点からは、過去のビデオストリームからカメラの物理的FoV以外の情報を得ることができる。
本稿では,自律走行車両の視野拡大のためのオンラインビデオインペインティングの概念を提案し,映像の可視性,知覚性,システムの安全性を高める。
これを実現するために,光フローを明示的に利用し,特徴伝搬に新しいクリップリカレントトランスを暗黙的に組み込むflowlensアーキテクチャを導入する。
FlowLensには2つの重要な機能がある。
1) flowlensには新たに設計された3dデカップリングクロスアテンション(ddca)を備えたクリップリカレントハブが含まれている。
2) マルチブランチミキシングフィードフォワードネットワーク(mixf3n)を統合し,局所的特徴の正確な空間フローを向上させる。
トレーニングと評価を容易にするため,様々なFoVマスクを用いたKITTI360データセットを作成した。
また、異なるモデル間でのFoV以上のセマンティクスの定量的評価を行い、FoV以外のオブジェクト検出の質的比較を行う。
本研究では,FlowLensを用いて見えないシーンを再構成することで,信頼性の高いセマンティックコンテキストを提供することで,視野内の認識を向上することを示す。
オフラインおよびオンラインビデオのインペインティングを含む広範囲な実験とユーザ研究、およびbeyond-fov知覚タスクは、flowlensが最先端のパフォーマンスを達成していることを示している。
ソースコードとデータセットはhttps://github.com/MasterHow/FlowLensで公開されている。
関連論文リスト
- Radiance Field Learners As UAV First-Person Viewers [36.59524833437512]
第一パーソンビュー(FPV)は無人航空機(UAV)の軌道に革命をもたらす大きな可能性を秘めている
従来のNeNeRF(Neural Radiance Field)手法は、粒度ごとに単一点をサンプリングするといった課題に直面している。
FPV-NeRFを導入し、これらの課題に3つの重要な面を通して対処する。
論文 参考訳(メタデータ) (2024-08-10T12:29:11Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - Knowledge Fusion Transformers for Video Action Recognition [0.0]
本稿では, 自己注意型特徴強調器を用いて, 分類を意図した映像クリップのコンテキストを3Dベースで表現し, 行動知識を融合する。
1つのストリームのみを使用して、あるいはほとんど、事前トレーニングがなければ、現在の最先端に近いパフォーマンスの道を開くことができる、と私たちは示しています。
論文 参考訳(メタデータ) (2020-09-29T05:13:45Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。