論文の概要: A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video
- arxiv url: http://arxiv.org/abs/2602.09154v1
- Date: Mon, 09 Feb 2026 19:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.224806
- Title: A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video
- Title(参考訳): ニューズビデオにおける名前付きエンティティ抽出のためのハイブリッド決定型フレームワーク
- Authors: Andrea Filiberto Lucas, Dylan Seychell,
- Abstract要約: 本研究は,ニュースビデオから人名を自動的に検出・抽出する包括的枠組みを提案する。
現代ニュースグラフィクスの多様性を捉えた注釈付きフレームのキュレーションとバランスの取れたコーパスを導入している。
パイプラインは、生成的マルチモーダル手法の対照的なクラスに対して評価され、決定論的監査性と推論の間の明確なトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing volume of video-based news content has heightened the need for transparent and reliable methods to extract on-screen information. Yet the variability of graphical layouts, typographic conventions, and platform-specific design patterns renders manual indexing impractical. This work presents a comprehensive framework for automatically detecting and extracting personal names from broadcast and social-media-native news videos. It introduces a curated and balanced corpus of annotated frames capturing the diversity of contemporary news graphics and proposes an interpretable, modular extraction pipeline designed to operate under deterministic and auditable conditions. The pipeline is evaluated against a contrasting class of generative multimodal methods, revealing a clear trade-off between deterministic auditability and stochastic inference. The underlying detector achieves 95.8% mAP@0.5, demonstrating operationally robust performance for graphical element localisation. While generative systems achieve marginally higher raw accuracy (F1: 84.18% vs 77.08%), they lack the transparent data lineage required for journalistic and analytical contexts. The proposed pipeline delivers balanced precision (79.9%) and recall (74.4%), avoids hallucination, and provides full traceability across each processing stage. Complementary user findings indicate that 59% of respondents report difficulty reading on-screen names in fast-paced broadcasts, underscoring the practical relevance of the task. The results establish a methodologically rigorous and interpretable baseline for hybrid multimodal information extraction in modern news media.
- Abstract(参考訳): ビデオベースのニュースコンテンツの増加により、画面上の情報を抽出するための透明で信頼性の高い方法の必要性が高まっている。
しかし、グラフィカルレイアウト、タイポグラフィの慣習、プラットフォーム固有のデザインパターンの多様性は、手動のインデックス作成を非現実的にする。
本研究は,ソーシャル・メディア・ネイティブ・ニュース・ビデオから人名を自動的に検出・抽出する包括的枠組みを提案する。
現代ニュースグラフィクスの多様性を捉えた注釈付きフレームのキュレーションとバランスの取れたコーパスを導入し、決定論的かつ監査可能な条件下での動作を意図した解釈可能なモジュラー抽出パイプラインを提案する。
パイプラインは生成的マルチモーダル手法の対照的なクラスに対して評価され、決定論的監査性と確率的推論との明確なトレードオフを明らかにする。
基礎となる検出器は95.8%のmAP@0.5を達成し、グラフィカル要素のローカライゼーションのために運用的に堅牢な性能を示す。
生成システムは比較的高い生の精度(F1:84.18%対77.08%)を達成するが、ジャーナリストや分析の文脈に必要な透明なデータ系統は欠如している。
提案されたパイプラインは、バランスの取れた精度(79.9%)とリコール(74.4%)を提供し、幻覚を回避し、各処理段階で完全なトレーサビリティを提供する。
相補的なユーザ調査では,59%の回答者が画面上での読みの難しさを報告し,課題の実践的妥当性を裏付けている。
その結果,現代メディアにおけるハイブリッドマルチモーダル情報抽出のための方法論的,厳密かつ解釈可能なベースラインが確立された。
関連論文リスト
- Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching [2.9079112030626146]
本稿では、既知の違反に対する教師付き分類と、新規または微妙な事例に対する参照ベース類似性マッチングを組み合わせたハイブリッド・モデレーション・フレームワークを提案する。
プロダクションでは、分類パイプラインは80%の精度で67%のリコールを達成し、類似性パイプラインは80%の精度で76%のリコールを達成している。
これらの結果は、マルチモーダルコンテンツガバナンスに対するスケーラブルで適応可能なアプローチを示し、明示的な違反と新たな敵行動の両方に対処することができる。
論文 参考訳(メタデータ) (2025-12-03T08:20:58Z) - Beyond Quantity: Distribution-Aware Labeling for Visual Grounding [72.43984105242177]
視覚的な接地には、大きく多様な領域テキストペアが必要である。
既存の擬似ラベルパイプラインは、しばしばバイアス分布に適合する。
視覚的グラウンドティングのための分布認識型ラベリングフレームワークであるDALを提案する。
論文 参考訳(メタデータ) (2025-05-30T09:04:47Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - VMID: A Multimodal Fusion LLM Framework for Detecting and Identifying Misinformation of Short Videos [14.551693267228345]
本稿では,マルチモーダル情報に基づく新しいフェイクニュース検出手法を提案する。
提案フレームワークは,ビデオにマルチモーダル機能を組み込むことで,偽ニュース検出の精度と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T08:20:26Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Interpretable Fake News Detection with Topic and Deep Variational Models [2.15242029196761]
我々は,解釈可能な特徴と手法を用いた偽ニュース検出に焦点をあてる。
我々は,テキストニュースの高密度表現を統合した深層確率モデルを開発した。
我々のモデルは最先端の競合モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2022-09-04T05:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。