論文の概要: Video 3D Sampling for Self-supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2107.03578v1
- Date: Thu, 8 Jul 2021 03:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:36:55.572243
- Title: Video 3D Sampling for Self-supervised Representation Learning
- Title(参考訳): 自己教師型表現学習のためのビデオ3Dサンプリング
- Authors: Wei Li, Dezhao Luo, Bo Fang, Yu Zhou, Weiping Wang
- Abstract要約: 本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
- 参考スコア(独自算出の注目度): 13.135859819622855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing video self-supervised methods mainly leverage temporal
signals of videos, ignoring that the semantics of moving objects and
environmental information are all critical for video-related tasks. In this
paper, we propose a novel self-supervised method for video representation
learning, referred to as Video 3D Sampling (V3S). In order to sufficiently
utilize the information (spatial and temporal) provided in videos, we
pre-process a video from three dimensions (width, height, time). As a result,
we can leverage the spatial information (the size of objects), temporal
information (the direction and magnitude of motions) as our learning target. In
our implementation, we combine the sampling of the three dimensions and propose
the scale and projection transformations in space and time respectively. The
experimental results show that, when applied to action recognition, video
retrieval and action similarity labeling, our approach improves the
state-of-the-arts with significant margins.
- Abstract(参考訳): 既存のビデオの自己監督手法のほとんどは、動画の時間的シグナルを主に活用しており、移動対象と環境情報のセマンティクスがビデオ関連のタスクに不可欠であることを無視している。
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
ビデオで提供される情報(空間的,時間的)を十分に活用するために,3次元(幅,高さ,時間)からビデオを前処理する。
その結果、学習対象として空間情報(物体の大きさ)、時間情報(動きの方向と大きさ)を利用することができる。
本実装では,3次元のサンプリングを組み合わせることで,空間と時間におけるスケール変換と投影変換をそれぞれ提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良する。
関連論文リスト
- Learning-based Multi-View Stereo: A Survey [55.3096230732874]
MVS(Multi-View Stereo)アルゴリズムは、複雑な環境における正確な再構築を可能にする包括的な3D表現を合成する。
ディープラーニングの成功により、多くの学習ベースのMVS手法が提案され、従来の手法に対して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-27T17:53:18Z) - Flatten: Video Action Recognition is an Image Classification task [15.518011818978074]
新たなビデオ表現アーキテクチャであるFlattenは、プラグイン・アンド・プレイモジュールとして機能し、任意の画像理解ネットワークにシームレスに統合できる。
一般的に使用されるデータセットの実験では、Flattenの埋め込みはオリジナルのモデルよりも大幅なパフォーマンス向上をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-08-17T14:59:58Z) - Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model [52.27297680947337]
マルチモーダル言語モデル(MLLM)は、現実の環境でますます実装されている。
その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。
本稿では,3次元・時間的理解を喚起するための訓練不要,効果的,汎用的な視覚刺激法である粗対応について紹介する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。