論文の概要: Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
- arxiv url: http://arxiv.org/abs/2604.11244v2
- Date: Wed, 15 Apr 2026 07:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.436659
- Title: Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
- Title(参考訳): Script-a-Video:Factized StreamsとRelational Groundingによる深層構造型オーディオビジュアルキャプション
- Authors: Tencent Hunyuan Team,
- Abstract要約: MTSS(Multi-Stream Scene Script)はモノリシックなテキストを因数化して具体化されたシーン記述に置き換える新しいパラダイムである。
広範囲な実験によりMTSSは様々なモデルにおけるビデオ理解を一貫して強化することを示した。
アーキテクチャの適応がなくても、マルチショットビデオ生成におけるモノリシックプロンプトをMTSSに置き換えると、大幅に改善される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Multimodal Large Language Models (MLLMs) are transforming video captioning from a descriptive endpoint into a semantic interface for both video understanding and generation. However, the dominant paradigm still casts videos as monolithic narrative paragraphs that entangle visual, auditory, and identity information. This dense coupling not only compromises representational fidelity but also limits scalability, since even local edits can trigger global rewrites. To address this structural bottleneck, we propose Multi-Stream Scene Script (MTSS), a novel paradigm that replaces monolithic text with factorized and explicitly grounded scene descriptions. MTSS is built on two core principles: Stream Factorization, which decouples a video into complementary streams (Reference, Shot, Event, and Global), and Relational Grounding, which reconnects these isolated streams through explicit identity and temporal links to maintain holistic video consistency. Extensive experiments demonstrate that MTSS consistently enhances video understanding across various models, achieving an average reduction of 25% in the total error rate on Video-SALMONN-2 and an average performance gain of 67% on the Daily-Omni reasoning benchmark. It also narrows the performance gap between smaller and larger MLLMs, indicating a substantially more learnable caption interface. Finally, even without architectural adaptation, replacing monolithic prompts with MTSS in multi-shot video generation yields substantial human-rated improvements: a 45% boost in cross-shot identity consistency, a 56% boost in audio-visual alignment, and a 71% boost in temporal controllability.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、ビデオキャプションを記述的なエンドポイントから、ビデオ理解と生成の両方のためのセマンティックインターフェースに変換する。
しかし、支配的なパラダイムは、ビデオが視覚的、聴覚的、アイデンティティ情報を絡ませるモノリシックな物語の段落として、今でも使われている。
この密結合は表現の忠実さを損なうだけでなく、拡張性も制限する。
この構造的ボトルネックに対処するために,モノリシックテキストを因数化して具体化されたシーン記述に置き換える新しいパラダイムであるMulti-Stream Scene Script (MTSS)を提案する。
MTSSは、ビデオを補完的なストリーム(参照、ショット、イベント、グローバル)に分離するStream Factorizationと、これらの分離されたストリームを明示的なアイデンティティと時間的リンクを通じて再接続して、全体的なビデオ一貫性を維持するRelational Groundingという2つの基本原則に基づいて構築されている。
MTSSは,ビデオ・SALMONN-2における誤り率の平均25%,デイリー・オムニ推論ベンチマークの平均67%の精度向上を実現し,様々なモデル間のビデオ理解を継続的に向上させることを示した。
また、より小さなMLLMと大きなMLLMのパフォーマンスギャップを狭め、より学習しやすいキャプションインターフェースを示している。
最後に、アーキテクチャの適応がなくても、マルチショットビデオ生成におけるモノリシックプロンプトをMTSSに置き換えると、45%のクロスショットアイデンティティ一貫性の向上、56%のオーディオ視覚アライメント、そして71%のテンポラリなコントロール容易性向上が実現します。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Multi-Level LVLM Guidance for Untrimmed Video Action Recognition [0.0]
本稿では,低レベルの視覚的特徴と高レベルの意味情報とのギャップを埋める新しいアーキテクチャであるイベント・テンポラライズド・ビデオ・トランスフォーマー(ECVT)を紹介する。
ActivityNet v1.3とTHUMOS14の実験では、ECVTは最先端のパフォーマンスを達成しており、平均mAPは40.5%、mAP@0.5は67.1%である。
論文 参考訳(メタデータ) (2025-08-24T16:45:21Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。