Fugu-MT 論文翻訳(概要): From Content to Audience: A Multimodal Annotation Framework for Broadcast Television Analytics

論文の概要: From Content to Audience: A Multimodal Annotation Framework for Broadcast Television Analytics

arxiv url: http://arxiv.org/abs/2603.26772v1
Date: Tue, 24 Mar 2026 13:46:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.593074
Title: From Content to Audience: A Multimodal Annotation Framework for Broadcast Television Analytics
Title（参考訳）: コンテンツからオーディエンスへ:テレビ放送分析のためのマルチモーダルアノテーションフレームワーク
Authors: Paolo Cupini, Francesco Pierri,
Abstract要約: マルチモーダル大言語モデル(MLLM)は、強力な汎用ビデオ理解能力を示している。本稿では,イタリアにおけるテレビ放送におけるマルチモーダル・アノテーション・パイプラインの体系的評価について述べる。
参考スコア（独自算出の注目度）: 1.6639892342953113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated semantic annotation of broadcast television content presents distinctive challenges, combining structured audiovisual composition, domain-specific editorial patterns, and strict operational constraints. While multimodal large language models (MLLMs) have demonstrated strong general-purpose video understanding capabilities, their comparative effectiveness across pipeline architectures and input configurations in broadcast-specific settings remains empirically undercharacterized. This paper presents a systematic evaluation of multimodal annotation pipelines applied to broadcast television news in the Italian setting. We construct a domain-specific benchmark of clips labeled across four semantic dimensions: visual environment classification, topic classification, sensitive content detection, and named entity recognition. Two different pipeline architectures are evaluated across nine frontier models, including Gemini 3.0 Pro, LLaMA 4 Maverick, Qwen-VL variants, and Gemma 3, under progressively enriched input strategies combining visual signals, automatic speech recognition, speaker diarization, and metadata. Experimental results demonstrate that gains from video input are strongly model-dependent: larger models effectively leverage temporal continuity, while smaller models show performance degradation under extended multimodal context, likely due to token overload. Beyond benchmarking, the selected pipeline is deployed on 14 full broadcast episodes, with minute-level annotations integrated with normalized audience measurement data provided by an Italian media company. This integration enables correlational analysis of topic-level audience sensitivity and generational engagement divergence, demonstrating the operational viability of the proposed framework for content-based audience analytics.
Abstract（参考訳）: 放送テレビコンテンツの自動意味アノテーションは、構造化されたオーディオ視覚構成、ドメイン固有の編集パターン、厳密な運用制約を組み合わせることで、独特な課題を提示する。マルチモーダル大言語モデル(MLLM)は、強力な汎用ビデオ理解能力を示してきたが、パイプラインアーキテクチャと放送固有の設定における入力構成間の比較効果は、実証的に過小評価されている。本稿では,イタリアにおけるテレビ放送におけるマルチモーダル・アノテーション・パイプラインの体系的評価について述べる。我々は、視覚環境分類、トピック分類、センシティブなコンテンツ検出、名前付きエンティティ認識という4つの意味領域にまたがってラベル付けされたクリップのドメイン固有ベンチマークを構築した。 Gemini 3.0 Pro、LLaMA 4 Maverick、Qwen-VL、Gemma 3といった9つのフロンティアモデルにおいて、視覚信号、自動音声認識、話者ダイアリゼーション、メタデータを組み合わせた漸進的にリッチな入力戦略の下で、2つの異なるパイプラインアーキテクチャが評価されている。より大規模なモデルは時間的連続性を効果的に利用し、より小さなモデルはトークン過負荷により、拡張マルチモーダルコンテキスト下での性能劣化を示す。ベンチマークの他に、選択されたパイプラインは14のフルブロードキャストエピソードにデプロイされ、イタリアのメディア企業によって提供される正規化されたオーディエンス計測データと統合されたミニレベルアノテーションが提供される。この統合により、トピックレベルのオーディエンス感度と世代間エンゲージメントの相関分析が可能となり、コンテンツベースのオーディエンス分析のためのフレームワークの運用可能性を示す。

関連論文リスト

A Benchmarking Methodology to Assess Open-Source Video Large Language Models in Automatic Captioning of News Videos [0.0]
本研究は,8つの最先端オープンソースVidLLMsを自動ニュースキャプションとして比較検討した。我々は,語彙的指標(METEOR,ROUGE-L),意味的指標(BERTScore,CLIPScore,テキスト類似性,平均相互ランク)と,本研究で提案した2つの新しい忠実度指標を用いる。分析の結果, ニュースビデオキャプションでは, 表面形状依存性, 静的フレームの感度, 機能単語のインフレーションなどにより, 識別能力に限界があることがわかった。
論文参考訳（メタデータ） (2026-03-29T12:28:35Z)
DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning [64.33887406863899]
マルチモーダル偽装検出は、法医学とセキュリティのための聴覚的手がかりを解析することにより、偽装行動を特定することを目的としている。既存のベンチマークでは、中間的な推論手段を使わずにバイナリラベルのみを提供する。構造的キューレベルの記述と推論チェーンを用いた推論データセットを構築した。 1695年のサンプルでは、非実験的偽装検出データセットとしては最大である。
論文参考訳（メタデータ） (2026-03-25T04:06:36Z)
Understanding Virality: A Rubric based Vision-Language Model Framework for Short-Form Edutainment Evaluation [8.15791379444665]
VideoScore-2は、特定のオーディオヴィジュアル属性が実際の観客のエンゲージメントに与える影響を捉えていない。本稿では、視覚言語モデル(VLM)を用いて教師なしの視覚的特徴を抽出するデータ駆動評価フレームワークを提案する。我々のアプローチは、堅牢で説明可能なビデオ理解へと進む。
論文参考訳（メタデータ） (2025-12-24T19:43:59Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。 MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。 OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文参考訳（メタデータ） (2025-10-01T02:41:11Z)
PresentAgent: Multimodal Agent for Presentation Video Generation [30.274831875701217]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文参考訳（メタデータ） (2025-07-05T13:24:15Z)
Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文参考訳（メタデータ） (2024-11-11T11:12:23Z)
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文参考訳（メタデータ） (2024-07-30T16:43:24Z)
Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文参考訳（メタデータ） (2023-10-12T13:09:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。