論文の概要: DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning
- arxiv url: http://arxiv.org/abs/2510.23907v1
- Date: Mon, 27 Oct 2025 22:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.605319
- Title: DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning
- Title(参考訳): DynaStride: インストラクショナルマルチシーンキャプションのためのMMCoTによる動的ストライドウィンドウ
- Authors: Eddison Pham, Prisha Priyadarshini, Adrian Maliackel, Kanishk Bandi, Cristian Meo, Kevin Zhu,
- Abstract要約: インストラクショナルビデオにおけるシーンレベルのキャプションは、視覚的手がかりと時間的構造の両方を理解することで学習を強化することができる。
手動シーンセグメンテーションを必要とせずに、コヒーレントなシーンレベルのキャプションを生成するパイプラインDynaStrideを導入する。
我々はDynaStrideが時間的コヒーレントで情報的なキャプションを生成することを示し、AIによる指導コンテンツ生成を改善するための有望な方向性を示唆している。
- 参考スコア(独自算出の注目度): 3.47287766500271
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scene-level captioning in instructional videos can enhance learning by requiring an understanding of both visual cues and temporal structure. By aligning visual cues with textual guidance, this understanding supports procedural learning and multimodal reasoning, providing a richer context for skill acquisition. However, captions that fail to capture this structure may lack coherence and quality, which can create confusion and undermine the video's educational intent. To address this gap, we introduce DynaStride, a pipeline to generate coherent, scene-level captions without requiring manual scene segmentation. Using the YouCookII dataset's scene annotations, DynaStride performs adaptive frame sampling and multimodal windowing to capture key transitions within each scene. It then employs a multimodal chain-of-thought process to produce multiple action-object pairs, which are refined and fused using a dynamic stride window selection algorithm that adaptively balances temporal context and redundancy. The final scene-level caption integrates visual semantics and temporal reasoning in a single instructional caption. Empirical evaluations against strong baselines, including VLLaMA3 and GPT-4o, demonstrate consistent gains on both N-gram-based metrics (BLEU, METEOR) and semantic similarity measures (BERTScore, CLIPScore). Qualitative analyses further show that DynaStride produces captions that are more temporally coherent and informative, suggesting a promising direction for improving AI-powered instructional content generation.
- Abstract(参考訳): インストラクショナルビデオにおけるシーンレベルのキャプションは、視覚的手がかりと時間的構造の両方を理解することで学習を強化することができる。
視覚的手がかりをテキストガイダンスと整合させることにより、この理解は手続き的学習とマルチモーダル推論をサポートし、スキル獲得のためのよりリッチなコンテキストを提供する。
しかし、この構造を捉えられなかったキャプションにはコヒーレンスと品質が欠けており、混乱を招き、ビデオの教育意図を損なう可能性がある。
このギャップに対処するために,手動シーンセグメンテーションを必要とせず,一貫性のあるシーンレベルのキャプションを生成するパイプラインDynaStrideを導入する。
YouCookIIデータセットのシーンアノテーションを使用して、DynaStrideは適応的なフレームサンプリングとマルチモーダルウィンドウを実行し、各シーン内のキートランジションをキャプチャする。
その後、マルチモーダル・チェーン・オブ・シント法を用いて複数のアクション・オブジェクト・ペアを生成し、時間的文脈と冗長性を適応的にバランスする動的ストライドウィンドウ選択アルゴリズムを用いて洗練・融合する。
最後のシーンレベルのキャプションは、視覚的意味論と時間的推論を単一の命令キャプションに統合する。
VLLaMA3やGPT-4oを含む強力なベースラインに対する実証的な評価は、N-gramベースのメトリクス(BLEU, METEOR)と意味的類似度尺度(BERTScore, CLIPScore)の両方に一貫した利得を示す。
質的な分析により、DynaStrideは、より時間的に一貫性があり情報的なキャプションを生成し、AIによる指導コンテンツ生成を改善するための有望な方向性を示唆している。
関連論文リスト
- Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。