論文の概要: Beyond the Camera: Neural Networks in World Coordinates
- arxiv url: http://arxiv.org/abs/2003.05614v1
- Date: Thu, 12 Mar 2020 04:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:58:58.489276
- Title: Beyond the Camera: Neural Networks in World Coordinates
- Title(参考訳): カメラの向こうに:世界のニューラルネットワーク
- Authors: Gunnar A. Sigurdsson, Abhinav Gupta, Cordelia Schmid, Karteek Alahari
- Abstract要約: 眼球運動は、動物にシーンの解像度を高め、邪魔な情報を抑制する。
そこで我々は,各層における各機能が空間変換を持ち,機能マップは必要に応じてのみ変換される,シンプルなアイデア WorldFeatures を提案する。
これらのWorldFeaturesで構築されたネットワークは、事前に記録されたビデオのバッチ設定であっても、ササード、固定、スムーズな追跡などの眼球運動をモデル化することができる。
- 参考スコア(独自算出の注目度): 82.31045377469584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye movement and strategic placement of the visual field onto the retina,
gives animals increased resolution of the scene and suppresses distracting
information. This fundamental system has been missing from video understanding
with deep networks, typically limited to 224 by 224 pixel content locked to the
camera frame. We propose a simple idea, WorldFeatures, where each feature at
every layer has a spatial transformation, and the feature map is only
transformed as needed. We show that a network built with these WorldFeatures,
can be used to model eye movements, such as saccades, fixation, and smooth
pursuit, even in a batch setting on pre-recorded video. That is, the network
can for example use all 224 by 224 pixels to look at a small detail one moment,
and the whole scene the next. We show that typical building blocks, such as
convolutions and pooling, can be adapted to support WorldFeatures using
available tools. Experiments are presented on the Charades, Olympic Sports, and
Caltech-UCSD Birds-200-2011 datasets, exploring action recognition,
fine-grained recognition, and video stabilization.
- Abstract(参考訳): 眼球運動と視覚野の網膜への戦略的配置により、動物はシーンの解像度を高め、邪魔な情報を抑える。
この基本的なシステムはディープネットワークによるビデオ理解に欠けており、通常はカメラフレームにロックされた224×224ピクセルのコンテンツに制限されている。
そこで我々は,各層における各機能が空間変換を持ち,機能マップは必要に応じてのみ変換される,シンプルなアイデア WorldFeatures を提案する。
これらのWorldFeaturesで構築されたネットワークは、事前に記録されたビデオのバッチ設定であっても、ササード、固定、スムーズな追跡などの眼球運動をモデル化することができる。
つまり、ネットワークは例えば、224×224ピクセルすべてを使って、ある瞬間に小さな細部を、そして次のシーン全体を見ることができる。
コンボリューションやプーリングのような一般的なビルディングブロックは、利用可能なツールを使用してWorldFeaturesをサポートすることができることを示す。
実験はチャラデス、オリンピックスポーツ、カルテック-UCSD Birds-200-2011のデータセットで行われ、アクション認識、きめ細かい認識、ビデオ安定化を探求している。
関連論文リスト
- Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z) - Panoptic Video Scene Graph Generation [110.82362282102288]
パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは、ビデオ内のバウンディングボックスで接地された人間とオブジェクト間の時間的相互作用に焦点を当てた、既存のビデオシーングラフ生成問題に関連している。
PVSGデータセットは400本(3人称289本+111本自撮り111本)からなり、合計150Kフレームに汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした。
論文 参考訳(メタデータ) (2023-11-28T18:59:57Z) - Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic
Scenes [69.52540205439989]
グリッドベースの幾何表現と多視点画像に基づく外観表現からなるハイブリッド表現であるIm4Dを紹介する。
画像の特徴から3Dポイントの色を予測することを学習する,オリジナルのマルチビュービデオとネットワークによってシーンの外観を表現する。
我々は,512x512画像に対して,79.8 FPSのリアルタイムレンダリングを実現しつつ,レンダリング品質が向上し,効率よくトレーニングできるIm4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action
Recognition 2022: Team HNU-FPV Technical Report [4.88605334919407]
我々は2022年のEPIC-Kitchens Unsupervised Domain Adaptation Challengeに応募する。
本手法は,EPIC-KITCHENS-100のテストセットにおいて,今年のチームの中で4位である。
論文 参考訳(メタデータ) (2022-07-07T05:27:32Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular
Video [44.58519508310171]
我々は、人間の複雑な身体の動きを観察するモノクラービデオで動作する、自由視点レンダリング手法、HumanNeRFを紹介した。
提案手法は,任意のフレームで動画をパージングし,任意のカメラ視点から被写体をレンダリングする。
論文 参考訳(メタデータ) (2022-01-11T18:51:21Z) - A Multi-viewpoint Outdoor Dataset for Human Action Recognition [3.522154868524807]
我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。
データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。
全体のベースライン動作認識精度は74.0%である。
論文 参考訳(メタデータ) (2021-10-07T14:50:43Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - A Single Frame and Multi-Frame Joint Network for 360-degree Panorama
Video Super-Resolution [34.35942412092329]
ang360(パノラマ)ビデオとも呼ばれる球状ビデオは、コンピュータやヘッドマウントディスプレイなどの様々な仮想現実デバイスで見ることができる。
低解像度入力から高解像度球面映像を復元するための新しい単一フレーム・多フレームジョイントネットワーク(SMFN)を提案する。
論文 参考訳(メタデータ) (2020-08-24T11:09:54Z) - Neural Sparse Voxel Fields [151.20366604586403]
高速かつ高品質な自由視点レンダリングのためのニューラルシーン表現であるNeural Sparse Voxel Fields (NSVF)を紹介する。
NSVFは、各細胞の局所特性をモデル化するために、スパース・ボクセル・オクツリーで組織された、ボクセルに結合した暗黙のフィールドのセットを定義する。
提案手法は, 高い品質を達成しつつ, 推論時の最先端技術(NeRF(Mildenhall et al., 2020))よりも10倍以上高速である。
論文 参考訳(メタデータ) (2020-07-22T17:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。