論文の概要: MMTM: Tri-Modal Topic Modeling for Long-Form Video via Similarity-Gated Fusion
- arxiv url: http://arxiv.org/abs/2605.29765v1
- Date: Thu, 28 May 2026 11:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.194222
- Title: MMTM: Tri-Modal Topic Modeling for Long-Form Video via Similarity-Gated Fusion
- Title(参考訳): MMTM:類似ゲージ融合による長手ビデオのトリモーダルトピックモデリング
- Authors: Ali Abusaleh, Bhuvanesh Verma, Alexander Mehler,
- Abstract要約: 本稿では,音声認識,音声と視覚の埋め込み,BERTopicクラスタリングを統合した,長文ビデオにおけるトピック発見のためのモジュールパイプラインであるMMTMを紹介する。
我々は,ドイツ語 (Tagesschau) と英語 (NBC) の放送ニュースにおける話題の質を評価する。
パイプラインコードと54時間のマルチモーダルビデオトピックコーパスを,デュアルアノテーションによる視覚評価とLCMによるラベリングによりリリースする。
- 参考スコア(独自算出の注目度): 44.304470436110165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MMTM, a modular pipeline for topic discovery in long-form video that integrates speech recognition, audio and visual embeddings, and BERTopic clustering through a deterministic similarity-gated fusion. Evaluated cross-lingually on German (Tagesschau) and English (NBC) broadcast news, joint tri-modal modeling substantially improves topic quality: noise drops from 0.27 to 0.06, transition rate from 0.70 to 0.21, and normalized entropy rises from 0.84 to 0.92, indicating more coherent and temporally stable topics. Cluster validity (Calinski-Harabasz) improves by 5-12X across embedding spaces. Lexical coherence (NPMI) rises from 0.77 to 0.86 on German but is corpus-dependent and does not transfer to the shorter NBC broadcasts. We release the pipeline code and a human-validated 54-hour multimodal video topic corpus with dual-annotator visual evaluation and LLM-assisted labeling.
- Abstract(参考訳): 本稿では,音声認識,音声および視覚的埋め込み,BERTopicクラスタリングを,決定論的類似性付き融合を通じて統合した長文ビデオにおけるトピック発見のためのモジュールパイプラインであるMMTMを紹介する。
ドイツ語 (Tagesschau) と英語 (NBC) の放送ニュースで言語横断的に評価され、共同トリモーダルモデリングはトピックの品質を大幅に改善する:ノイズの減少は0.27から0.06、遷移速度は0.70から0.21、正規化エントロピーは0.84から0.92に上昇し、一貫性と時間的に安定なトピックである。
クラスタの妥当性 (Calinski-Harabasz) は埋め込み空間の5~12倍向上する。
レキシカル・コヒーレンス(英語版) (NPMI) はドイツ語では 0.77 から 0.86 に上昇するが、コーパスに依存しており、NBCの短い放送には移行しない。
パイプラインコードと54時間のマルチモーダルビデオトピックコーパスを,デュアルアノテーションによる視覚評価とLCMによるラベリングによりリリースする。
関連論文リスト
- Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model [52.79436545460808]
本稿では,人中心生成のためのオープンソースオーディオビデオ生成基盤モデルdaVinci-MagiHumanを紹介する。
DaVinci-MagiHumanは、単一ストリームトランスフォーマーを使用して、同期ビデオとオーディオを共同で生成する。
中国語(マンダリン語とカントン語)、英語、日本語、韓国語、ドイツ語、フランス語の多言語音声生成をサポートする。
論文 参考訳(メタデータ) (2026-03-23T13:49:06Z) - TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes [0.40611352512781873]
セマンティック埋め込み、TF-IDF、メタデータを融合したトリモーダルグラフを用いて、これらの弱点に対処するフレームワークであるTriTopicを提案する。
TriTopicは、"平均文書"の概念を、センターのみではなく境界ケースによって定義されたアーキタイプベースのトピック表現に置き換える。
20のNewsグループ、BBC News、AG News、Arxivのベンチマークでは、TriTopicはデータセット毎に最も高いNMIを達成している。
論文 参考訳(メタデータ) (2026-02-22T07:29:53Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - Multilingual Hate Speech Detection in Social Media Using Translation-Based Approaches with Large Language Models [4.66584517664999]
キーワードフィルタリングにより収集した英語,ウルドゥー語,スペイン語で10,193ツイートのトリリンガルデータセットを導入する。
GPT-3.5 Turbo と Qwen 2.5 72B をアテンション層に統合することで,高い性能を実現する。
我々のフレームワークは、多言語ヘイトスピーチ検出のための堅牢なソリューションを提供し、世界中のより安全なデジタルコミュニティを育む。
論文 参考訳(メタデータ) (2025-06-09T18:53:56Z) - DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos [4.452513686760606]
マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。
対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。
実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-28T07:56:19Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。