論文の概要: Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation
- arxiv url: http://arxiv.org/abs/2411.16810v1
- Date: Mon, 25 Nov 2024 15:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:30.771316
- Title: Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation
- Title(参考訳): 離散から連続へ:手話観測から滑らかな遷移確率を生成する
- Authors: Shengeng Tang, Jiayi He, Lechao Cheng, Jingjing Wu, Dan Guo, Richang Hong,
- Abstract要約: 本研究では,文脈的に滑らかな遷移フレームを合成するための条件拡散モデルを提案する。
本手法は,遷移フレーム生成の教師なし問題を教師なし学習タスクに変換する。
PHO14TENIX, USTC-CSL100, USTC-500データセットを用いた実験により, 本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 45.214169930573775
- License:
- Abstract: Generating continuous sign language videos from discrete segments is challenging due to the need for smooth transitions that preserve natural flow and meaning. Traditional approaches that simply concatenate isolated signs often result in abrupt transitions, disrupting video coherence. To address this, we propose a novel framework, Sign-D2C, that employs a conditional diffusion model to synthesize contextually smooth transition frames, enabling the seamless construction of continuous sign language sequences. Our approach transforms the unsupervised problem of transition frame generation into a supervised training task by simulating the absence of transition frames through random masking of segments in long-duration sign videos. The model learns to predict these masked frames by denoising Gaussian noise, conditioned on the surrounding sign observations, allowing it to handle complex, unstructured transitions. During inference, we apply a linearly interpolating padding strategy that initializes missing frames through interpolation between boundary frames, providing a stable foundation for iterative refinement by the diffusion model. Extensive experiments on the PHOENIX14T, USTC-CSL100, and USTC-SLR500 datasets demonstrate the effectiveness of our method in producing continuous, natural sign language videos.
- Abstract(参考訳): 離散セグメントから連続手話ビデオを生成することは、自然の流れと意味を保存するスムーズな遷移を必要とするため、難しい。
孤立した標識を単純に結合する伝統的なアプローチは、しばしば急激な遷移をもたらし、ビデオのコヒーレンスを乱す。
そこで我々は,文脈的に滑らかな遷移フレームを合成し,連続手話列のシームレスな構築を可能にする条件拡散モデルを用いた新しいフレームワークSign-D2Cを提案する。
長周期手話ビデオにおけるセグメントのランダムマスキングにより、遷移フレームの欠如をシミュレートすることで、遷移フレーム生成の教師なし問題を教師なしの訓練タスクに変換する。
このモデルは、周囲のサイン観測に条件づけられたガウスノイズを識別することで、これらのマスク付きフレームを予測し、複雑で非構造的な遷移を処理できるようにする。
推論中,境界フレーム間の補間により欠落フレームを初期化する線形補間パディング戦略を適用し,拡散モデルによる反復的改善の基礎となる。
PHOENIX14T, USTC-CSL100, および USTC-SLR500 データセットの大規模な実験により, 連続した自然な手話ビデオの作成における本手法の有効性が示された。
関連論文リスト
- Transformer with Controlled Attention for Synchronous Motion Captioning [0.0]
本稿では,人間の動作シーケンスに同期した言語記述を生成することを目的とした,同期動作キャプションという課題に対処する。
本手法では,トランスフォーマーの自己および横断的な分布を制御する機構を導入し,解釈可能性と時刻整合テキスト生成を実現する。
我々は、KIT-MLとHumanML3Dという2つのベンチマークデータセットの評価を通じて、我々のアプローチの優れた性能を実証する。
論文 参考訳(メタデータ) (2024-09-13T20:30:29Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Human Video Translation via Query Warping [38.9185553719231]
本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを紹介する。
外観フローを使用して、前のフレームのクエリトークンをワープし、現在のフレームのクエリと整合させます。
このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
論文 参考訳(メタデータ) (2024-02-19T12:28:45Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Multi-Stage Raw Video Denoising with Adversarial Loss and Gradient Mask [14.265454188161819]
低照度下で撮影した生映像を消音する学習型手法を提案する。
まず、畳み込みニューラルネットワーク(CNN)を用いて、隣接するフレームを現在のフレームに明示的にアライメントする。
次に、登録されたフレームを別のCNNを使って融合し、最終識別フレームを得る。
論文 参考訳(メタデータ) (2021-03-04T06:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。