Fugu-MT 論文翻訳(概要): Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation

論文の概要: Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation

arxiv url: http://arxiv.org/abs/2604.14953v1
Date: Thu, 16 Apr 2026 12:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.897421
Title: Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation
Title（参考訳）: Prompt-to-Gesture:イメージ・トゥ・ビデオ・ディシック・ジェスチャ生成能力の測定
Authors: Hassan Ali, Doreen Jirak, Luca Müller, Stefan Wermter,
Abstract要約: 近年の映像と映像の基盤モデルの発展により、自然言語でガイドされた写真リアリスティックで意味的にリッチなビデオの生成が可能になった。これらの能力は、労力のない合成データを作成する新しい可能性を開く。本稿では,現実的なディスティック・ジェスチャ・データセットを構築するために,プロンプトベースの映像生成を導入・解析する。
参考スコア（独自算出の注目度）: 8.9657942429828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Gesture recognition research, unlike NLP, continues to face acute data scarcity, with progress constrained by the need for costly human recordings or image processing approaches that cannot generate authentic variability in the gestures themselves. Recent advancements in image-to-video foundation models have enabled the generation of photorealistic, semantically rich videos guided by natural language. These capabilities open up new possibilities for creating effort-free synthetic data, raising the critical question of whether video Generative AI models can augment and complement traditional human-generated gesture data. In this paper, we introduce and analyze prompt-based video generation to construct a realistic deictic gestures dataset and rigorously evaluate its effectiveness for downstream tasks. We propose a data generation pipeline that produces deictic gestures from a small number of reference samples collected from human participants, providing an accessible approach that can be leveraged both within and beyond the machine learning community. Our results demonstrate that the synthetic gestures not only align closely with real ones in terms of visual fidelity but also introduce meaningful variability and novelty that enrich the original data, further supported by superior performance of various deep models using a mixed dataset. These findings highlight that image-to-video techniques, even in their early stages, offer a powerful zero-shot approach to gesture synthesis with clear benefits for downstream tasks.
Abstract（参考訳）: ジェスチャ認識の研究は、NLPとは異なり、高速なデータ不足に直面し続けており、コストのかかる人為的な記録や、ジェスチャー自体に真の変動を生じさせない画像処理アプローチの必要性によって、進歩が制限されている。近年の映像と映像の基盤モデルの発展により、自然言語でガイドされた写真リアリスティックで意味的にリッチなビデオの生成が可能になった。これらの能力は、努力のない合成データを作成するための新たな可能性を開き、ビデオ生成AIモデルが従来のヒューマン生成ジェスチャデータを拡張および補完できるかどうかという批判的な疑問を提起する。本稿では,現実的な視覚的ジェスチャーデータセットを構築するために,プロンプトベースの映像生成を導入,解析し,下流タスクの有効性を厳格に評価する。本稿では,人間の参加者から集めた少数の参照サンプルからディスティックなジェスチャーを生成するデータ生成パイプラインを提案し,機械学習コミュニティ内外から活用可能なアプローチを提案する。以上の結果から, 合成ジェスチャーは, 視覚的忠実度だけでなく, 有意義な変動性や新奇性ももたらし, 混合データセットを用いた各種深層モデルの優れた性能に支えられていることが示唆された。これらの知見は、初期の段階でも、下流タスクに明確な利点を持つジェスチャー合成に強力なゼロショットアプローチが提供されることを強調している。

関連論文リスト

Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文参考訳（メタデータ） (2026-01-15T18:49:48Z)
Synthetic Human Action Video Data Generation with Pose Transfer [0.7366405857677227]
本稿では,ポーズ転送を用いた合成人間の行動映像データを生成する手法を提案する。本手法をToyota SmarthomeおよびNTU RGB+Dデータセット上で評価し,動作認識タスクの性能向上を示す。
論文参考訳（メタデータ） (2025-06-11T05:52:39Z)
Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文参考訳（メタデータ） (2024-11-26T16:51:11Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
HandsOff: Labeled Dataset Generation With No Additional Human Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文参考訳（メタデータ） (2022-12-24T03:37:02Z)
Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文参考訳（メタデータ） (2022-10-14T06:54:24Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。