論文の概要: HiVid-Narrator: Hierarchical Video Narrative Generation with Scene-Primed ASR-anchored Compression
- arxiv url: http://arxiv.org/abs/2601.07366v1
- Date: Mon, 12 Jan 2026 09:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.321669
- Title: HiVid-Narrator: Hierarchical Video Narrative Generation with Scene-Primed ASR-anchored Compression
- Title(参考訳): HiVid-Narrator:Scene-Primed ASR-anchored Compressionによる階層ビデオナラティブ生成
- Authors: Haoxuan Li, Mengyan Li, Junjun Zheng,
- Abstract要約: 本稿では,Eコマースの階層的ビデオキャプションデータセットについて紹介する。
我々はまず,ASRとフレームレベルの記述を用いて,信頼性の高い言語的・視覚的証拠を収集する段階的構成を採用する。
本稿では,マルチモーダルトークンを階層的なシーンに圧縮するScene-Primed ASR-anchored Caption (SPA-Compressor)を提案する。
- 参考スコア(独自算出の注目度): 7.305586811678626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating structured narrations for real-world e-commerce videos requires models to perceive fine-grained visual details and organize them into coherent, high-level stories--capabilities that existing approaches struggle to unify. We introduce the E-commerce Hierarchical Video Captioning (E-HVC) dataset with dual-granularity, temporally grounded annotations: a Temporal Chain-of-Thought that anchors event-level observations and Chapter Summary that compose them into concise, story-centric summaries. Rather than directly prompting chapters, we adopt a staged construction that first gathers reliable linguistic and visual evidence via curated ASR and frame-level descriptions, then refines coarse annotations into precise chapter boundaries and titles conditioned on the Temporal Chain-of-Thought, yielding fact-grounded, time-aligned narratives. We also observe that e-commerce videos are fast-paced and information-dense, with visual tokens dominating the input sequence. To enable efficient training while reducing input tokens, we propose the Scene-Primed ASR-anchored Compressor (SPA-Compressor), which compresses multimodal tokens into hierarchical scene and event representations guided by ASR semantic cues. Built upon these designs, our HiVid-Narrator framework achieves superior narrative quality with fewer input tokens compared to existing methods.
- Abstract(参考訳): 現実世界のEコマースビデオのための構造化ナレーションを生成するには、モデルをきめ細かな視覚的詳細を知覚し、それらを一貫性のある高レベルのストーリーに整理する必要がある。
E-Commerce Hierarchical Video Captioning (E-HVC) データセットを2つの粒度と時間的基盤を持つアノテーションで導入する。
章を直接的に促すのではなく、まずASRやフレームレベルの記述を通じて信頼できる言語的・視覚的な証拠を収集し、その後、粗い注釈を正確な章境界と時間的連鎖に規定されたタイトルに洗練し、事実を根拠とした、時間的整合性のある物語を生み出します。
また、電子商取引ビデオは高速で情報密度が高く、視覚トークンが入力シーケンスを支配していることも観察した。
入力トークンを削減しつつ、効率的なトレーニングを可能にするために、マルチモーダルトークンを階層的なシーンに圧縮するScene-Primed ASR-anchored Compressor (SPA-Compressor)を提案する。
これらの設計に基づいて構築されたHiVid-Narratorフレームワークは,既存の手法に比べて少ない入力トークンで優れた物語品質を実現する。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries [77.41072125938636]
ARC-Chapterは100万以上のビデオチャプターで訓練された最初の大規模ビデオチャプターモデルである。
ASRの書き起こし、シーンテキスト、ビジュアルキャプションを、短いタイトルから長い要約まで、複数レベルのアノテーションに統一する。
F1得点は14.0%、SODA得点は11.3%で前年最多となった。
論文 参考訳(メタデータ) (2025-11-18T10:53:14Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative [19.79736018383692]
既存のビデオキャプションベンチマークとモデルは因果的物語を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新規な因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを捉えるための別エンコーダを備えた因果効果ネットワーク(CEN)とからなるアプローチであるナラティブブリッジを提案する。
論文 参考訳(メタデータ) (2024-06-10T17:34:24Z) - Leveraging Temporal Contextualization for Video Action Recognition [47.8361303269338]
本稿では,TC-CLIP (Temporally Contextualized CLIP) と呼ばれる映像理解のためのフレームワークを提案する。
ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を導入する。
Video-Prompting (VP)モジュールはコンテキストトークンを処理し、テキストのモダリティで情報的なプロンプトを生成する。
論文 参考訳(メタデータ) (2024-04-15T06:24:56Z) - Screenplay Summarization Using Latent Narrative Structure [78.45316339164133]
本稿では,物語の基盤となる構造を一般教師なし・教師付き抽出要約モデルに明示的に組み込むことを提案する。
重要な物語イベント(転回点)の観点で物語構造を定式化し、脚本を要約するために潜伏状態として扱う。
シーンレベルの要約ラベルを付加したテレビ画面のCSIコーパスの実験結果から,潜角点がCSIエピソードの重要な側面と相関していることが判明した。
論文 参考訳(メタデータ) (2020-04-27T11:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。