論文の概要: Self-supervised Extraction of Human Motion Structures via Frame-wise
Discrete Features
- arxiv url: http://arxiv.org/abs/2309.05972v1
- Date: Tue, 12 Sep 2023 05:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:20:36.897943
- Title: Self-supervised Extraction of Human Motion Structures via Frame-wise
Discrete Features
- Title(参考訳): フレームワイド離散特徴を用いた人体運動構造の自己教師的抽出
- Authors: Tetsuya Abe, Ryusuke Sagawa, Ko Ayusawa, Wataru Takano
- Abstract要約: 本稿では,フレームワイドの離散的特徴によって表現される人間の動作の構造を自己監督的に抽出するエンコーダ・デコーダモデルを提案する。
実験では,移動符号のスパース構造を用いて,符号間の関係とシーケンス間の差異の可視化を容易にするグラフをコンパイルした。
- 参考スコア(独自算出の注目度): 2.239394800147746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The present paper proposes an encoder-decoder model for extracting the
structures of human motions represented by frame-wise discrete features in a
self-supervised manner. In the proposed method, features are extracted as codes
in a motion codebook without the use of human knowledge, and the relationship
between these codes can be visualized on a graph. Since the codes are expected
to be temporally sparse compared to the captured frame rate and can be shared
by multiple sequences, the proposed network model also addresses the need for
training constraints. Specifically, the model consists of self-attention layers
and a vector clustering block. The attention layers contribute to finding
sparse keyframes and discrete features as motion codes, which are then
extracted by vector clustering. The constraints are realized as training losses
so that the same motion codes can be as contiguous as possible and can be
shared by multiple sequences. In addition, we propose the use of causal
self-attention as a method by which to calculate attention for long sequences
consisting of numerous frames. In our experiments, the sparse structures of
motion codes were used to compile a graph that facilitates visualization of the
relationship between the codes and the differences between sequences. We then
evaluated the effectiveness of the extracted motion codes by applying them to
multiple recognition tasks and found that performance levels comparable to
task-optimized methods could be achieved by linear probing.
- Abstract(参考訳): 本稿では,フレーム単位の離散特徴によって表現される人間の動きの構造を自己監督的に抽出するエンコーダ・デコーダモデルを提案する。
提案手法では,人間の知識を使わずに動作コードブックのコードとして特徴を抽出し,これらのコード間の関係をグラフ上で可視化する。
取得したフレームレートと時間的に疎外されることが期待され、複数のシーケンスで共有できるため、提案するネットワークモデルは、トレーニング制約の必要性にも対処する。
具体的には、自己アテンション層とベクトルクラスタリングブロックで構成される。
注意層は、疎いキーフレームと離散的な特徴をモーションコードとして見つけ、ベクトルクラスタリングによって抽出する。
制約はトレーニング損失として実現され、同一の動作符号を可能な限り連続し、複数のシーケンスで共有できる。
また,多数のフレームからなる長い列に対する注意度を計算する手法として,因果的自己着想の利用を提案する。
実験では,動き符号のスパース構造を用いて,符号間の関係とシーケンス間の差異の可視化を容易にするグラフをコンパイルした。
次に,複数の認識タスクに適用することにより,抽出した動作符号の有効性を評価し,線形探索によりタスク最適化手法に匹敵する性能レベルが達成できることを見出した。
関連論文リスト
- Associative Knowledge Graphs for Efficient Sequence Storage and Retrieval [3.355436702348694]
シーケンスの保存と認識に非常に効果的な連想的知識グラフを作成します。
個々のオブジェクト(ノードとして表現される)は、複数のシーケンスの一部あるいは単一のシーケンス内で繰り返し現れる。
このアプローチは、金融取引における異常検出や過去の行動に基づくユーザの振る舞いの予測など、さまざまな分野への応用の可能性を持っている。
論文 参考訳(メタデータ) (2024-11-19T13:00:31Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
CoGCLは、離散コードを通じてより強力な協調情報でコントラスト的なビューを構築することで、グラフのコントラスト学習を強化することを目的としている。
ユーザとアイテムの表現を離散コードに定量化するために,マルチレベルベクトル量化器をエンドツーエンドで導入する。
近傍構造に対しては,離散符号を仮想隣人として扱うことにより,仮想隣人拡張を提案する。
意味的関連性については、共有された離散コードと相互作用ターゲットに基づいて類似のユーザ/イテムを識別し、意味的関連性のあるビューを生成する。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Graph-Collaborated Auto-Encoder Hashing for Multi-view Binary Clustering [11.082316688429641]
マルチビューバイナリクラスタリングのための自動エンコーダに基づくハッシュアルゴリズムを提案する。
具体的には,低ランク制約を用いた多視点親和性グラフ学習モデルを提案する。
また、複数の親和性グラフを協調して協調するエンコーダ・デコーダのパラダイムを設計し、統一されたバイナリコードを効果的に学習する。
論文 参考訳(メタデータ) (2023-01-06T12:43:13Z) - Semi-Structured Object Sequence Encoders [9.257633944317735]
本稿では,半構造化オブジェクト列に対する構造認識型入力表現の開発に焦点をあてる。
このタイプのデータは、時間とともにキーと値のペアの一連の配列として表されることが多い。
本稿では,まず各キーを独立に考慮し,時間とともに値の表現を符号化する2部手法を提案する。
論文 参考訳(メタデータ) (2023-01-03T09:19:41Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Unsupervised Spatio-temporal Latent Feature Clustering for
Multiple-object Tracking and Segmentation [0.5591659577198183]
本稿では,時間的識別タスクを異種時間的クラスタリング問題として扱う戦略を提案する。
我々は、畳み込みと完全に接続されたオートエンコーダを用いて、セグメンテーションマスクと検出バウンディングボックスから識別特徴を学習する。
以上の結果から,本手法はいくつかの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。