論文の概要: GestureLens: Visual Analysis of Gestures in Presentation Videos
- arxiv url: http://arxiv.org/abs/2204.08894v1
- Date: Tue, 19 Apr 2022 13:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 15:24:51.399492
- Title: GestureLens: Visual Analysis of Gestures in Presentation Videos
- Title(参考訳): GestureLens:プレゼンテーションビデオにおけるジェスチャーの視覚的分析
- Authors: Haipeng Zeng, Xingbo Wang, Yong Wang, Aoyu Wu, Ting Chuen Pong and
Huamin Qu
- Abstract要約: GestureLensは、プレゼンテーションビデオにおけるジェスチャーおよびコンテンツに基づくジェスチャー使用の探索を容易にするビジュアル分析システムである。
探索ビューにより、ユーザはジェスチャーの空間的および時間的分布の簡単な概要を得ることができる。
関係ビューでは、ユーザーは音声の内容とジェスチャーの相関を明示的に調べることができる。
- 参考スコア(独自算出の注目度): 35.96450728474813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appropriate gestures can enhance message delivery and audience engagement in
both daily communication and public presentations. In this paper, we contribute
a visual analytic approach that assists professional public speaking coaches in
improving their practice of gesture training through analyzing presentation
videos. Manually checking and exploring gesture usage in the presentation
videos is often tedious and time-consuming. There lacks an efficient method to
help users conduct gesture exploration, which is challenging due to the
intrinsically temporal evolution of gestures and their complex correlation to
speech content. In this paper, we propose GestureLens, a visual analytics
system to facilitate gesture-based and content-based exploration of gesture
usage in presentation videos. Specifically, the exploration view enables users
to obtain a quick overview of the spatial and temporal distributions of
gestures. The dynamic hand movements are firstly aggregated through a heatmap
in the gesture space for uncovering spatial patterns, and then decomposed into
two mutually perpendicular timelines for revealing temporal patterns. The
relation view allows users to explicitly explore the correlation between speech
content and gestures by enabling linked analysis and intuitive glyph designs.
The video view and dynamic view show the context and overall dynamic movement
of the selected gestures, respectively. Two usage scenarios and expert
interviews with professional presentation coaches demonstrate the effectiveness
and usefulness of GestureLens in facilitating gesture exploration and analysis
of presentation videos.
- Abstract(参考訳): 適切なジェスチャーは、日々のコミュニケーションと公開プレゼンテーションの両方において、メッセージ配信とオーディエンスエンゲージメントを高めることができる。
本稿では,プレゼンテーションビデオの分析を通じてジェスチャー訓練の実践を改善するために,プロの講演指導者を支援するビジュアル分析手法を提案する。
プレゼンテーションビデオでジェスチャーの使い方を手動でチェックしたり探したりするのは面倒で時間がかかります。
ジェスチャ探索を支援する効率的な方法が欠如しているため,ジェスチャの時間的進化や音声コンテンツとの複雑な相関が困難である。
本稿では,ジェスチャベースおよびコンテンツベースによるプレゼンテーションビデオのジェスチャー利用の探索を容易にする視覚分析システムであるGestureLensを提案する。
具体的には、探索ビューにより、ユーザはジェスチャーの空間的および時間的分布を素早く把握することができる。
動的手の動きは、まず、空間パターンを明らかにするためにジェスチャー空間のヒートマップを介して集約され、その後、時間パターンを明らかにするために2つの相互垂直なタイムラインに分解される。
このリレーショナルビューでは,音声コンテンツとジェスチャーの相関関係を,リンク解析と直感的なグリフ設計により明確に探索することができる。
ビデオビューとダイナミックビューはそれぞれ、選択したジェスチャーのコンテキストと全体的な動的動きを示す。
プロのプレゼンテーションコーチとの2つの利用シナリオと専門家インタビューは、ジェスチャー探索とプレゼンテーションビデオの分析を容易にするGestureLensの有効性と有用性を示した。
関連論文リスト
- Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality [0.0]
本研究では,異なる種類のジェスチャーが相互作用の質や聴取者の理解にどのように影響するかを検討する。
我々のモデルは、学習した音声駆動モジュールが生成したビートジェスチャーと、手動でキャプチャした象徴的ジェスチャーを組み合わせる。
発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-18T12:23:00Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。