論文の概要: Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments
- arxiv url: http://arxiv.org/abs/2601.16333v1
- Date: Thu, 22 Jan 2026 21:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.416075
- Title: Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments
- Title(参考訳): マルチモーダルゴールポストはどこにあるのか? 文脈的に重要なモーメントを認識する基礎モデルの能力について
- Authors: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle,
- Abstract要約: 本稿では,映像中の重要なサブイベントを識別するモデルについて検討する。
ゲームにおいて重要なサブイベントと重要でないサブイベントを区別する能力に関するモデルを評価する。
- 参考スコア(独自算出の注目度): 11.490236862362801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models are used for many real-world applications involving language generation from temporally-ordered multimodal events. In this work, we study the ability of models to identify the most important sub-events in a video, which is a fundamental prerequisite for narrating or summarizing multimodal events. Specifically, we focus on football games and evaluate models on their ability to distinguish between important and non-important sub-events in a game. To this end, we construct a new dataset by leveraging human preferences for importance implicit in football game highlight reels, without any additional annotation costs. Using our dataset, which we will publicly release to the community, we compare several state-of-the-art multimodal models and show that they are not far from chance level performance. Analyses of models beyond standard evaluation metrics reveal their tendency to rely on a single dominant modality and their ineffectiveness in synthesizing necessary information from multiple sources. Our findings underline the importance of modular architectures that can handle sample-level heterogeneity in multimodal data and the need for complementary training procedures that can maximize cross-modal synergy.
- Abstract(参考訳): ファンデーションモデルは、時間的に順序付けられたマルチモーダルイベントから言語を生成する多くの実世界のアプリケーションに使用される。
本研究は,マルチモーダルイベントの語りや要約の基本的な前提条件である,ビデオ中の最も重要なサブイベントを識別するモデルの能力について検討する。
具体的には,フットボールゲームに焦点をあて,重要なサブイベントと重要でないサブイベントを区別するモデルを評価する。
この目的のために,フットボールのハイライトリールにおいて重要視される人間の嗜好を活用することで,付加的なアノテーションコストを伴わずに新たなデータセットを構築する。
コミュニティに公開するデータセットを使って、最先端のマルチモーダルモデルをいくつか比較し、チャンスレベルのパフォーマンスには程遠いことを示す。
標準評価指標を超えるモデルの解析は、単一の支配的なモダリティに依存する傾向と、複数の情報源から必要な情報を合成する非効率性を明らかにする。
本研究は,マルチモーダルデータにおけるサンプルレベルの不均一性を扱えるモジュールアーキテクチャの重要性と,クロスモーダルのシナジーを最大化できる補完的なトレーニング手順の必要性を明らかにする。
関連論文リスト
- Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations [14.972702558607557]
6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。
本研究では,潜伏次元を意味因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の成果を達成できるクープマンモデルを提案する。
私たちのコードはGitHubで、データセットとトレーニングされたモデルはHugging Faceで利用可能です。
論文 参考訳(メタデータ) (2025-10-20T08:58:23Z) - Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models [63.032359320629105]
In this present: Unpaired Multimodal, a modality-agnostic training paradigm, a single model then alternately processs from different modalities while sharing parameters across。
補助モダリティからの未ペアリングデータを使用することで、画像や音声などの様々な単一目標に対して、ダウンストリーム性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2025-10-09T17:32:23Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。