論文の概要: Motion-Based Sign Language Video Summarization using Curvature and
Torsion
- arxiv url: http://arxiv.org/abs/2305.16801v2
- Date: Fri, 2 Jun 2023 12:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 19:00:38.740243
- Title: Motion-Based Sign Language Video Summarization using Curvature and
Torsion
- Title(参考訳): 曲率とねじりを用いた動きに基づく手話ビデオ要約
- Authors: Evangelos G. Sartinas, Emmanouil Z. Psarakis, Dimitrios I. Kosmopoulos
- Abstract要約: ビデオの各フレームから抽出した3次元手の動きに基づいて,新たな情報伝達関数を提案する。
提案した3次元特徴は,(1)地平線アノテーションを用いた客観的な測定,(2)人間による理解の評価,(3)光沢分類,および得られた結果に対して,手話ビデオの応用で実験的に評価された。
- 参考スコア(独自算出の注目度): 5.220940151628734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An interesting problem in many video-based applications is the generation of
short synopses by selecting the most informative frames, a procedure which is
known as video summarization. For sign language videos the benefits of using
the $t$-parameterized counterpart of the curvature of the 2-D signer's wrist
trajectory to identify keyframes, have been recently reported in the
literature. In this paper we extend these ideas by modeling the 3-D hand motion
that is extracted from each frame of the video. To this end we propose a new
informative function based on the $t$-parameterized curvature and torsion of
the 3-D trajectory. The method to characterize video frames as keyframes
depends on whether the motion occurs in 2-D or 3-D space. Specifically, in the
case of 3-D motion we look for the maxima of the harmonic mean of the curvature
and torsion of the target's trajectory; in the planar motion case we seek for
the maxima of the trajectory's curvature. The proposed 3-D feature is
experimentally evaluated in applications of sign language videos on (1)
objective measures using ground-truth keyframe annotations, (2) human-based
evaluation of understanding, and (3) gloss classification and the results
obtained are promising.
- Abstract(参考訳): 多くのビデオベースアプリケーションにおいて興味深い問題は、最も情報性の高いフレームを選択することでショート・シナプスを生成することである。
手話のビデオでは、2d署名者の手首の軌跡の曲率のt$パラメータの対数を使ってキーフレームを識別する利点が最近文献に報告されている。
本稿では,ビデオの各フレームから抽出した3次元手の動きをモデル化することにより,これらのアイデアを拡張する。
そこで本研究では,3次元軌道の$t$-parameterized曲率とねじれに基づく新しい情報関数を提案する。
ビデオフレームをキーフレームとして特徴付ける方法は、動きが2次元空間か3次元空間かに依存する。
具体的には, 3次元運動の場合, 対象軌跡の曲率とねじれの高調波平均の最大値を求め, 平面運動の場合, 軌道の最大値を求める。
提案する3次元特徴は,(1)表裏キーフレームアノテーションを用いた客観的尺度,(2)理解の人間ベース評価,(3)言語分類とその結果について,手話映像の応用において実験的に評価されている。
関連論文リスト
- Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking
Heads Generation [9.242997749920498]
本稿では,生音声入力から3次元音声頭を生成する新しい手法を提案する。
3D音声ヘッド生成におけるランドマークの使用は、一貫性、信頼性、手動アノテーションの必要性の回避など、さまざまなメリットを提供する。
論文 参考訳(メタデータ) (2023-06-02T10:04:57Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space
Multi-Person Video Motion Capture in the Wild [3.0015034534260665]
マルチカメラの精度と滑らかさを考慮したマーカーレスモーションキャプチャ手法を提案する。
提案手法は,各人物の3Dポーズを予測し,マルチカメラ画像のバウンディングボックスを決定する。
提案手法を,様々なデータセットと実スポーツフィールドを用いて評価した。
論文 参考訳(メタデータ) (2020-01-16T02:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。