論文の概要: FlowLens: Seeing Beyond the FoV via Flow-guided Clip-Recurrent
Transformer
- arxiv url: http://arxiv.org/abs/2211.11293v1
- Date: Mon, 21 Nov 2022 09:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:37:14.573192
- Title: FlowLens: Seeing Beyond the FoV via Flow-guided Clip-Recurrent
Transformer
- Title(参考訳): flowlens: flow-guided clip-recurrent transformerによるfovの向こう側を見る
- Authors: Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Kaiwei Wang
- Abstract要約: 本研究では、過去の視覚的手がかりを活用し、カメラの物理的視野(FoV)を突破することを目的とした、Beyond-FoV Estimationと呼ばれる新しいタスクを提案する。
本稿では,FoV を拡張した FlowLens アーキテクチャを提案し,光流とクリップリカレント変換器で特徴伝搬を明示的に達成した。
トレーニングと評価の促進を目的として,外外および内外FoV拡張のためのデータセットであるKITTI360-EXを構築した。
- 参考スコア(独自算出の注目度): 7.999328770328173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Limited by hardware cost and system size, camera's Field-of-View (FoV) is not
always satisfactory. However, from a spatio-temporal perspective, information
beyond the camera's physical FoV is off-the-shelf and can actually be obtained
"for free" from the past. In this paper, we propose a novel task termed
Beyond-FoV Estimation, aiming to exploit past visual cues and bidirectional
break through the physical FoV of a camera. We put forward a FlowLens
architecture to expand the FoV by achieving feature propagation explicitly by
optical flow and implicitly by a novel clip-recurrent transformer, which has
two appealing features: 1) FlowLens comprises a newly proposed Clip-Recurrent
Hub with 3D-Decoupled Cross Attention (DDCA) to progressively process global
information accumulated in the temporal dimension. 2) A multi-branch Mix Fusion
Feed Forward Network (MixF3N) is integrated to enhance the spatially-precise
flow of local features. To foster training and evaluation, we establish
KITTI360-EX, a dataset for outer- and inner FoV expansion. Extensive
experiments on both video inpainting and beyond-FoV estimation tasks show that
FlowLens achieves state-of-the-art performance. Code will be made publicly
available at https://github.com/MasterHow/FlowLens.
- Abstract(参考訳): ハードウェアコストとシステムサイズによって制限されているが、カメラの視野(FoV)は常に満足できるとは限らない。
しかし、時空間的な視点では、カメラの物理的FoV以外の情報は棚から外れており、実際には過去から「無料で」得ることができる。
本稿では,過去の視覚手がかりとカメラの物理的フォブによる双方向的ブレークを活用すべく,beyond-fov推定という新しいタスクを提案する。
我々は,光流による特徴伝搬を明示的に達成してFoVを拡張するためのFlowLensアーキテクチャを提案し,二つの魅力的な特徴を持つ新しいクリップリカレントトランスによって暗黙的に実現した。
1) FlowLensは,時間次元に蓄積したグローバル情報を段階的に処理する3Dデカップリング・クロス・アテンション(DDCA)を備えた,新たに提案されたClip-Recurrent Hubから構成される。
2) 局所的特徴の空間的preciseフローを強化するために, マルチブランチ混合フィードフォワードネットワーク (mixf3n) が統合されている。
トレーニングと評価を促進するため,外部および内部FoV拡張のためのデータセットであるKITTI360-EXを構築した。
ビデオインペイントとFoV以上の推定タスクの広範な実験は、FlowLensが最先端のパフォーマンスを達成することを示している。
コードはhttps://github.com/MasterHow/FlowLens.comで公開される。
関連論文リスト
- Radiance Field Learners As UAV First-Person Viewers [36.59524833437512]
第一パーソンビュー(FPV)は無人航空機(UAV)の軌道に革命をもたらす大きな可能性を秘めている
従来のNeNeRF(Neural Radiance Field)手法は、粒度ごとに単一点をサンプリングするといった課題に直面している。
FPV-NeRFを導入し、これらの課題に3つの重要な面を通して対処する。
論文 参考訳(メタデータ) (2024-08-10T12:29:11Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - Knowledge Fusion Transformers for Video Action Recognition [0.0]
本稿では, 自己注意型特徴強調器を用いて, 分類を意図した映像クリップのコンテキストを3Dベースで表現し, 行動知識を融合する。
1つのストリームのみを使用して、あるいはほとんど、事前トレーニングがなければ、現在の最先端に近いパフォーマンスの道を開くことができる、と私たちは示しています。
論文 参考訳(メタデータ) (2020-09-29T05:13:45Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。