論文の概要: MTLLFM: Multimodal-Temporal Laughter Localization: UR-FUNNY-Temporal and SMILE-Temporal Benchmarks with an Adaptive Multimodal Fusion Model
- arxiv url: http://arxiv.org/abs/2605.25409v1
- Date: Mon, 25 May 2026 04:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.282329
- Title: MTLLFM: Multimodal-Temporal Laughter Localization: UR-FUNNY-Temporal and SMILE-Temporal Benchmarks with an Adaptive Multimodal Fusion Model
- Title(参考訳): MTLLFM: Multimodal-Temporal Laughter Localization:UR-FUNNY-Temporal and SMILE-Temporal Benchmarks with an Adaptive Multimodal Fusion Model
- Authors: Eyal Hanania, Nadav Kirsch, Daniel Arkushin, Jonathan Benvenisti, Amos Bercovich, Elie Zemmour, Sahar Froim,
- Abstract要約: UR-FUNNY-TemporalデータセットとSMILE-Temporalデータセットを導入し,2つのユーモアベンチマークを拡張した。
私たちのアノテーションは11,053本のビデオ(78.8時間)をカバーし、それぞれの笑いイベントに対して正確なオンセット/オフセット境界を提供します。
本アーキテクチャでは,HuBERTとMAEエンコーダを時間的ソフトマックスプーリングと適応的モダリティゲーティングを組み合わせることで,クリップレベルのラベルから微細な時間的グラウンドを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting laughter in video is essential for affective computing and narrative understanding, yet existing approaches treat it as coarse clip-level classification, failing to capture precise temporal boundaries of brief, transient laughter events. We address this gap with two complementary contributions. First, we introduce UR-FUNNY-Temporal and SMILE-Temporal, fully annotated temporal laughter datasets extending two widely-used humor benchmarks. Our annotations cover over 11,053 videos (78.8 hours) and provide precise onset/offset boundaries for each laughter event, along with rich metadata distinguishing speaker vs. audience laughter, modality dominance (acoustic, visual, or both), and intensity levels. Second, we propose a lightweight weakly-supervised framework for temporal laughter localization. Our architecture combines fixed HuBERT and MAE encoders with temporal softmax pooling and adaptive modality gating, learning fine-grained temporal grounding from clip-level labels without requiring frame-level annotations during training. Experiments across three datasets demonstrate that our approach substantially outperforms multimodal foundation models including Gemini 3 Flash, achieving 99% F1 and 68.1% localization precision on sports broadcast data. Ablations validate each architectural component. Furthermore, our precise temporal tags improve downstream laughter reasoning by 227% on CIDEr, enabling GPT-3.5 to outperform GPT-4o. The code, UR-FUNNY-Temporal and SMILE-Temporal datasets are publicly available at https://github.com/WSCSports/MTLLFM-temporal-laughter-localization.
- Abstract(参考訳): 映像中の笑いを検知することは感情的な計算と物語の理解に不可欠であるが、既存の手法ではクリップレベルの粗い分類として扱い、短時間で過渡的な笑いイベントの正確な時間的境界を捉えていない。
このギャップを2つの補完的な貢献で解決する。
まず, UR-FUNNY-Temporal と SMILE-Temporal の2つのユーモアベンチマークを拡張した時間的笑いデータセットを紹介する。
私たちのアノテーションは、11,053本のビデオ(78.8時間)をカバーし、各笑いイベントの正確なオンセット/オフセット境界を提供し、話者と観客の笑いを区別する豊富なメタデータ、モーダリティ支配(音響、視覚、またはその両方)、強度レベルを提供する。
第2に、時間的笑いの局所化のための軽量な弱教師付きフレームワークを提案する。
本アーキテクチャでは,HuBERTとMAEエンコーダを時間的ソフトマックスプーリングと適応的モダリティゲーティングを組み合わせることで,フレームレベルのアノテーションを必要とせずにクリップレベルのラベルから微粒な時間的グラウンドを学習する。
3つのデータセットにわたる実験により、我々のアプローチは、Gemini 3 Flashを含むマルチモーダル基盤モデルを大幅に上回り、スポーツ放送データに対する99%のF1と68.1%のローカライゼーション精度を達成した。
アブレーションはそれぞれのアーキテクチャコンポーネントを検証する。
さらに, 正確な時間的タグにより, CIDErでは227%のダウンストリーム笑い推論が向上し, GPT-3.5はGPT-4oを上回った。
UR-FUNNY-TemporalとSMILE-Temporalのデータセットはhttps://github.com/WSCSports/MTLLFM-temporal-laughter-localizationで公開されている。
関連論文リスト
- TIE: Time Interval Encoding for Video Generation over Events [50.66585165263848]
ディレクタースタイルのプロンプト、ロボットアクション予測、インタラクティブなビデオエージェントは、同時イベントに対する時間的根拠を要求する。
現代のビデオジェネレータは、ポイントワイドな位置エンコーディングを通して、タイムを離散的なポイントとして表現する。
Time Interval TIEは、プラグイン・アンド・プレイ・インターバル・アウェアの一般化である。
論文 参考訳(メタデータ) (2026-05-11T13:23:14Z) - TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs [24.299498301173255]
TimeBlindは、詳細な時間的理解のための診断ベンチマークである。
我々は600のインスタンスで20以上の最先端MLLMを評価した。
最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
論文 参考訳(メタデータ) (2026-01-30T20:21:46Z) - MS-DETR: Towards Effective Video Moment Retrieval and Highlight Detection by Joint Motion-Semantic Learning [26.58473269689558]
Video Moment Retrieval (MR) と Highlight Detection (HD) は、特定の瞬間を特定し、テキストクエリに基づいてクリップの関連性を評価することを目的としている。
本稿では,MR/HDタスクの統一学習を通じて,リッチな動作セマンティックな特徴をキャプチャするフレームワークであるMotion-Semantics DETR(MS-DETR)を提案する。
提案手法は既存の最先端モデルよりもマージンが高い。
論文 参考訳(メタデータ) (2025-07-16T09:18:18Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition [18.542942459854867]
従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。
本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。
SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
論文 参考訳(メタデータ) (2024-07-23T09:45:25Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。