論文の概要: RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live
Storytelling
- arxiv url: http://arxiv.org/abs/2208.06350v1
- Date: Fri, 12 Aug 2022 16:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:29:21.414495
- Title: RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live
Storytelling
- Title(参考訳): RealityTalk:ARライブストーリーテリングのためのリアルタイム音声駆動型プレゼンテーション
- Authors: Jian Liao, Adnan Karim, Shivesh Jadon, Rubaiat Habib Kazi, Ryo Suzuki
- Abstract要約: 本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。
既存の177の動画編集型拡張現実プレゼンテーションの分析に基づいて,対話手法の新たなセットを提案する。
我々は,システムの有効性を実証するために,プレゼンターの視点からツールを評価する。
- 参考スコア(独自算出の注目度): 7.330145218077073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RealityTalk, a system that augments real-time live presentations
with speech-driven interactive virtual elements. Augmented presentations
leverage embedded visuals and animation for engaging and expressive
storytelling. However, existing tools for live presentations often lack
interactivity and improvisation, while creating such effects in video editing
tools require significant time and expertise. RealityTalk enables users to
create live augmented presentations with real-time speech-driven interactions.
The user can interactively prompt, move, and manipulate graphical elements
through real-time speech and supporting modalities. Based on our analysis of
177 existing video-edited augmented presentations, we propose a novel set of
interaction techniques and then incorporated them into RealityTalk. We evaluate
our tool from a presenter's perspective to demonstrate the effectiveness of our
system.
- Abstract(参考訳): 本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。
拡張されたプレゼンテーションは、エンゲージメントと表現力のあるストーリーテリングに組み込みのビジュアルとアニメーションを利用する。
しかし、ライブプレゼンテーションのための既存のツールは対話性や即興性を欠くことが多く、ビデオ編集ツールでそのような効果を生み出すにはかなりの時間と専門知識が必要である。
realitytalkでは、リアルタイムの音声駆動インタラクションによるライブの拡張現実プレゼンテーションを作成することができる。
ユーザは、リアルタイムの音声と支援モダリティを通じて、インタラクティブにグラフィカルな要素をプロンプト、移動、操作することができる。
本研究では,既存の177種類の映像編集拡張プレゼンテーションの分析に基づいて,新たなインタラクション手法を提案し,それらをリアリティトークに組み込む。
我々は,システムの有効性を示すために,プレゼンターの視点からツールを評価する。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Real Time Emotion Analysis Using Deep Learning for Education, Entertainment, and Beyond [0.0]
プロジェクトは2つのコンポーネントから構成される。
我々は、洗練された画像処理技術とニューラルネットワークを用いて、表情を正確に分類できるディープラーニングモデルを構築する。
アプリは洗練されたモデルを利用して、表情を素早く分析し、対応する絵文字を素早く表示する。
論文 参考訳(メタデータ) (2024-07-05T14:48:19Z) - RITA: A Real-time Interactive Talking Avatars Framework [6.060251768347276]
RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
論文 参考訳(メタデータ) (2024-06-18T22:53:15Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Tell Your Story: Task-Oriented Dialogs for Interactive Content Creation [11.538915414185022]
本稿では,メディアコレクションからモンタージュをシームレスに検索,コンパイル,編集するためのインタラクティブツールとして,モンタージュ生成のためのタスク指向ダイアログを提案する。
大規模なメディアコレクションからシミュレーションしたメディアモンタージュに条件付き10kのダイアログを含む新しいデータセットC3(Conversational Content Creation)を収集する。
我々の最先端言語モデルの解析とベンチマークは、データセットに存在するマルチモーダルな課題を示している。
論文 参考訳(メタデータ) (2022-11-08T01:23:59Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。