論文の概要: FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty
- arxiv url: http://arxiv.org/abs/2204.01267v1
- Date: Mon, 4 Apr 2022 06:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 02:26:52.325583
- Title: FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty
- Title(参考訳): FoV-Net:自己注意と不確実性を用いた視野外挿
- Authors: Liqian Ma, Stamatios Georgoulis, Xu Jia, Luc Van Gool
- Abstract要約: 我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
- 参考スコア(独自算出の注目度): 95.11806655550315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to make educated predictions about their surroundings, and
associate them with certain confidence, is important for intelligent systems,
like autonomous vehicles and robots. It allows them to plan early and decide
accordingly. Motivated by this observation, in this paper we utilize
information from a video sequence with a narrow field-of-view to infer the
scene at a wider field-of-view. To this end, we propose a temporally consistent
field-of-view extrapolation framework, namely FoV-Net, that: (1) leverages 3D
information to propagate the observed scene parts from past frames; (2)
aggregates the propagated multi-frame information using an attention-based
feature aggregation module and a gated self-attention module, simultaneously
hallucinating any unobserved scene parts; and (3) assigns an interpretable
uncertainty value at each pixel. Extensive experiments show that FoV-Net does
not only extrapolate the temporally consistent wide field-of-view scene better
than existing alternatives, but also provides the associated uncertainty which
may benefit critical decision-making downstream applications. Project page is
at http://charliememory.github.io/RAL21_FoV.
- Abstract(参考訳): 環境に関する教育的な予測を行い、それをある程度の信頼と結びつける能力は、自動運転車やロボットのようなインテリジェントシステムにとって重要である。
早期に計画し、それに応じて決定することができる。
本稿では,この観察に動機づけられ,視野の狭い映像列からの情報を活用し,より広い視野でシーンを推定する。
そこで本研究では,(1)3次元情報を利用して過去のフレームから観測されたシーンを伝搬し,(2)注意に基づく特徴集約モジュールとゲート型自己照準モジュールを用いて伝播するマルチフレーム情報を集約し,同時に観測されていないシーン部分の幻視化を行い,(3)各ピクセルに解釈可能な不確実性値を割り当てる,という時間的一貫性のあるフィールドオブビュー推定フレームワークを提案する。
広範な実験により、fov-netは、既存の代替品よりも時間的に一貫性のある視野幅の広いシーンを外挿するだけでなく、下流アプリケーションの重要な意思決定に有利な関連する不確実性を提供することが示された。
プロジェクトページはhttp://charlie memory.github.io/RAL21_FoV。
関連論文リスト
- Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation [61.74261802856947]
本研究では,フォアグラウンド・ネットワーク(F2Net)について,フォアグラウンド・オブジェクトのイントラ・フレームの詳細について考察する。
提案するネットワークは,Siamese Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
DAVIS2016、Youtube-object、FBMSデータセットの実験から、提案したF2Netは最先端のパフォーマンスを実現し、大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-04T11:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。