Fugu-MT 論文翻訳(概要): Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer

論文の概要: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer

arxiv url: http://arxiv.org/abs/2211.11293v2
Date: Thu, 30 Nov 2023 07:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 23:19:31.361807
Title: Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer
Title（参考訳）: 視野を超えて:Clip-recurrent Transformerによるシーンの可視性と知覚を高める
Authors: Hao Shi, Qi Jiang, Kailun Yang, Xiaoting Yin, Huajian Ni, Kaiwei Wang
Abstract要約: FlowLensアーキテクチャは、光学フローを明示的に採用し、特徴伝達のための新しいクリップリカレントトランスフォーマーを暗黙的に組み込んでいる。 FlowLensは、信頼性のあるコンテキストを提供することで、視野内での認識を高めることも示しています。オフラインおよびオンラインビデオのインペイントを含む実験とユーザスタディ、さらにはFo-Vの知覚タスクは、Flowsが最先端のパフォーマンスを達成することを実証している。
参考スコア（独自算出の注目度）: 19.00652560208197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision sensors are widely applied in vehicles, robots, and roadside infrastructure. However, due to limitations in hardware cost and system size, camera Field-of-View (FoV) is often restricted and may not provide sufficient coverage. Nevertheless, from a spatiotemporal perspective, it is possible to obtain information beyond the camera's physical FoV from past video streams. In this paper, we propose the concept of online video inpainting for autonomous vehicles to expand the field of view, thereby enhancing scene visibility, perception, and system safety. To achieve this, we introduce the FlowLens architecture, which explicitly employs optical flow and implicitly incorporates a novel clip-recurrent transformer for feature propagation. FlowLens offers two key features: 1) FlowLens includes a newly designed Clip-Recurrent Hub with 3D-Decoupled Cross Attention (DDCA) to progressively process global information accumulated over time. 2) It integrates a multi-branch Mix Fusion Feed Forward Network (MixF3N) to enhance the precise spatial flow of local features. To facilitate training and evaluation, we derive the KITTI360 dataset with various FoV mask, which covers both outer- and inner FoV expansion scenarios. We also conduct quantitative assessments of beyond-FoV semantics across different models and perform qualitative comparisons of beyond-FoV object detection. We illustrate that employing FlowLens to reconstruct unseen scenes even enhances perception within the field of view by providing reliable semantic context. Extensive experiments and user studies involving offline and online video inpainting, as well as beyond-FoV perception tasks, demonstrate that FlowLens achieves state-of-the-art performance. The source code and dataset are made publicly available at https://github.com/MasterHow/FlowLens.
Abstract（参考訳）: 視覚センサーは車両、ロボット、道路インフラストラクチャーに広く応用されている。しかし、ハードウェアコストとシステムサイズに制限があるため、FoV(Field-of-View)はしばしば制限され、十分なカバレッジを提供することができない。しかし、時空間的観点からは、過去のビデオストリームからカメラの物理的FoV以外の情報を得ることができる。本稿では,自律走行車両の視野拡大のためのオンラインビデオインペインティングの概念を提案し,映像の可視性,知覚性,システムの安全性を高める。これを実現するために,光フローを明示的に利用し,特徴伝搬に新しいクリップリカレントトランスを暗黙的に組み込むflowlensアーキテクチャを導入する。 FlowLensには2つの重要な機能がある。 1) flowlensには新たに設計された3dデカップリングクロスアテンション(ddca)を備えたクリップリカレントハブが含まれている。 2) マルチブランチミキシングフィードフォワードネットワーク(mixf3n)を統合し,局所的特徴の正確な空間フローを向上させる。トレーニングと評価を容易にするため,様々なFoVマスクを用いたKITTI360データセットを作成した。また、異なるモデル間でのFoV以上のセマンティクスの定量的評価を行い、FoV以外のオブジェクト検出の質的比較を行う。本研究では,FlowLensを用いて見えないシーンを再構成することで,信頼性の高いセマンティックコンテキストを提供することで,視野内の認識を向上することを示す。オフラインおよびオンラインビデオのインペインティングを含む広範囲な実験とユーザ研究、およびbeyond-fov知覚タスクは、flowlensが最先端のパフォーマンスを達成していることを示している。ソースコードとデータセットはhttps://github.com/MasterHow/FlowLensで公開されている。

関連論文リスト

Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。 CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。 CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文参考訳（メタデータ） (2024-12-04T18:02:49Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
Radiance Field Learners As UAV First-Person Viewers [36.59524833437512]
第一パーソンビュー(FPV)は無人航空機(UAV)の軌道に革命をもたらす大きな可能性を秘めている従来のNeNeRF(Neural Radiance Field)手法は、粒度ごとに単一点をサンプリングするといった課題に直面している。 FPV-NeRFを導入し、これらの課題に3つの重要な面を通して対処する。
論文参考訳（メタデータ） (2024-08-10T12:29:11Z)
Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文参考訳（メタデータ） (2024-07-10T12:20:11Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。フロー推定において、より正確な相関と信頼できるマッチングを提供する。ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文参考訳（メタデータ） (2023-04-23T03:11:23Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)
FoV-Net: Field-of-View Extrapolation Using Self-Attention and Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文参考訳（メタデータ） (2022-04-04T06:24:03Z)
Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。 FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文参考訳（メタデータ） (2022-01-06T02:05:32Z)
Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T12:45:18Z)
Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文参考訳（メタデータ） (2020-10-12T14:56:08Z)
Knowledge Fusion Transformers for Video Action Recognition [0.0]
本稿では, 自己注意型特徴強調器を用いて, 分類を意図した映像クリップのコンテキストを3Dベースで表現し, 行動知識を融合する。 1つのストリームのみを使用して、あるいはほとんど、事前トレーニングがなければ、現在の最先端に近いパフォーマンスの道を開くことができる、と私たちは示しています。
論文参考訳（メタデータ） (2020-09-29T05:13:45Z)
Feature Flow: In-network Feature Flow Estimation for Video Object Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文参考訳（メタデータ） (2020-09-21T07:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。