Fugu-MT 論文翻訳(概要): Recognizing Actions in Videos from Unseen Viewpoints

論文の概要: Recognizing Actions in Videos from Unseen Viewpoints

arxiv url: http://arxiv.org/abs/2103.16516v1
Date: Tue, 30 Mar 2021 17:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-31 14:49:10.414643
Title: Recognizing Actions in Videos from Unseen Viewpoints
Title（参考訳）: 見えない視点からの映像における行動認識
Authors: AJ Piergiovanni and Michael S. Ryoo
Abstract要約: 本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
参考スコア（独自算出の注目度）: 80.6338404141284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Standard methods for video recognition use large CNNs designed to capture spatio-temporal data. However, training these models requires a large amount of labeled training data, containing a wide variety of actions, scenes, settings and camera viewpoints. In this paper, we show that current convolutional neural network models are unable to recognize actions from camera viewpoints not present in their training data (i.e., unseen view action recognition). To address this, we develop approaches based on 3D representations and introduce a new geometric convolutional layer that can learn viewpoint invariant representations. Further, we introduce a new, challenging dataset for unseen view recognition and show the approaches ability to learn viewpoint invariant representations.
Abstract（参考訳）: ビデオ認識の標準的な方法は、時空間データをキャプチャするために設計された大きなCNNを使用する。しかしながら、これらのモデルのトレーニングには、さまざまなアクション、シーン、設定、カメラ視点を含む、大量のラベル付きトレーニングデータが必要である。本稿では、現在の畳み込みニューラルネットワークモデルにおいて、トレーニングデータに存在しないカメラ視点からアクションを認識することができないことを示す。そこで我々は、3次元表現に基づくアプローチを開発し、視点不変表現を学習できる新しい幾何学的畳み込み層を導入する。さらに,未知視認識のための新しい挑戦的データセットを導入し,視点不変表現を学習するアプローチを示す。

関連論文リスト

Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文参考訳（メタデータ） (2024-10-25T06:59:11Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。 MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文参考訳（メタデータ） (2022-12-27T12:09:16Z)
Spot What Matters: Learning Context Using Graph Convolutional Networks for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-07-28T21:37:18Z)
Cloud based Scalable Object Recognition from Video Streams using Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。 CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文参考訳（メタデータ） (2021-06-19T07:15:15Z)
Data Augmentation for Object Detection via Differentiable Neural Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文参考訳（メタデータ） (2021-03-04T06:31:06Z)
A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文参考訳（メタデータ） (2020-12-11T18:54:08Z)
Space-time Neural Irradiance Fields for Free-Viewpoint Video [54.436478702701244]
本稿では,1つのビデオから動的シーンのニューラル照度場を学習する手法を提案する。私たちの学習した表現は、入力ビデオのフリービューレンダリングを可能にします。
論文参考訳（メタデータ） (2020-11-25T18:59:28Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。