Fugu-MT 論文翻訳(概要): Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations

論文の概要: Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations

arxiv url: http://arxiv.org/abs/2603.25870v1
Date: Thu, 26 Mar 2026 19:56:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.256891
Title: Speech-Synchronized Whiteboard Generation via VLM-Driven Structured Drawing Representations
Title（参考訳）: VLM駆動型構造化図面表現による音声同期ホワイトボード生成
Authors: Suraj Prasad, Pinak Mahapatra,
Abstract要約: ナレーション音声を用いた24組のExcalidrawデモの最初のデータセットを提示する。各描画要素は8STEMドメインにまたがるミリ秒精度の生成タイムスタンプを格納する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating whiteboard-style educational videos demands precise coordination between freehand illustrations and spoken narration, yet no existing method addresses this multimodal synchronization problem with structured, reproducible drawing representations. We present the first dataset of 24 paired Excalidraw demonstrations with narrated audio, where every drawing element carries millisecond-precision creation timestamps spanning 8 STEM domains. Using this data, we study whether a vision-language model (Qwen2-VL-7B), fine-tuned via LoRA, can predict full stroke sequences synchronized to speech from only 24 demonstrations. Our topic-stratified five-fold evaluation reveals that timestamp conditioning significantly improves temporal alignment over ablated baselines, while the model generalizes across unseen STEM topics. We discuss transferability to real classroom settings and release our dataset and code to support future research in automated educational content generation.
Abstract（参考訳）: ホワイトボード形式の教育ビデオを作成するには、フリーハンドイラストと音声ナレーションの正確な調整が必要であるが、構造化された再現可能な描画表現でこのマルチモーダル同期問題に対処する既存の手法は存在しない。 8STEM領域にまたがるミリ秒精度生成タイムスタンプを各描画要素が保持するナレーションオーディオを用いた24組のExcalidrawデモの最初のデータセットを提示する。このデータを用いて、LoRAを介して微調整された視覚言語モデル(Qwen2-VL-7B)が、わずか24回のデモから音声に同期した全ストロークシーケンスを予測できるかどうかを調べた。提案手法では,時間スタンプ条件が時間的アライメントを大幅に改善するのに対して,モデルがSTEMトピックを一般化するのに対して,時間的アライメントは時間的アライメントを著しく改善することを示す。我々は、実際の教室設定への転送可能性について議論し、我々のデータセットとコードを公開し、自動化されたコンテンツ生成における将来の研究を支援する。

関連論文リスト

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization [16.192222723269925]
ビデオダビングは、映画製作、マルチメディア制作、補助音声技術に広く応用されている。既存のアプローチでは、限られたダビングデータセットを直接トレーニングするか、事前トレーニングされたテキスト音声(TTS)モデルに適応する2段階のパイプラインを採用する。本稿では,事前学習したTSモデルからビデオ駆動ダビングへの知識伝達を効果的に行う,新しい2段階トレーニングフレームワークであるDiFlowDubberを提案する。 2つの主要なベンチマークデータセットの実験では、DiFlowDubberは、複数のメトリクスで過去のメソッドより優れていることが示されている。
論文参考訳（メタデータ） (2026-03-15T07:53:23Z)
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。 5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文参考訳（メタデータ） (2024-08-22T15:13:27Z)
Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文参考訳（メタデータ） (2023-12-21T17:28:09Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (2021-07-12T17:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。