論文の概要: TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
- arxiv url: http://arxiv.org/abs/2603.01169v1
- Date: Sun, 01 Mar 2026 16:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.549451
- Title: TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
- Title(参考訳): TripleSumm:ビデオ要約のための適応三重モード融合
- Authors: Sumin Kim, Hyemin Jeong, Mingu Kang, Yejin Kim, Yoori Oh, Joonseok Lee,
- Abstract要約: TripleSummは、フレームレベルで視覚、テキスト、オーディオのモダリティの貢献を適応的に重み付けし、融合させる新しいアーキテクチャである。
最先端のパフォーマンスを実現し、MoSuを含む4つのベンチマークにおいて、既存のメソッドよりも大幅にパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 19.94299183056601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of video content necessitates effective video summarization to efficiently extract key information from long videos. However, current approaches struggle to fully comprehend complex videos, primarily because they employ static or modality-agnostic fusion strategies. These methods fail to account for the dynamic, frame-dependent variations in modality saliency inherent in video data. To overcome these limitations, we propose TripleSumm, a novel architecture that adaptively weights and fuses the contributions of visual, text, and audio modalities at the frame level. Furthermore, a significant bottleneck for research into multimodal video summarization has been the lack of comprehensive benchmarks. Addressing this bottleneck, we introduce MoSu (Most Replayed Multimodal Video Summarization), the first large-scale benchmark that provides all three modalities. Extensive experiments demonstrate that TripleSumm achieves state-of-the-art performance, outperforming existing methods by a significant margin on four benchmarks, including MoSu. Our code and dataset are available at https://github.com/smkim37/TripleSumm.
- Abstract(参考訳): ビデオコンテンツの指数関数的成長は、長いビデオから重要な情報を効率的に抽出するために効果的な映像要約を必要とする。
しかし、現在のアプローチは、主に静的またはモダリティに依存しない融合戦略を採用するため、複雑なビデオを完全に理解するのに苦労している。
これらの手法は、ビデオデータに固有のモダリティ・サリエンシの動的、フレーム依存的な変動を考慮できない。
これらの制約を克服するために,フレームレベルでの視覚的,テキスト的,音声的モダリティの寄与を適応的に重み付け,融合する新しいアーキテクチャであるTripleSummを提案する。
さらに、マルチモーダルビデオ要約の研究における重要なボトルネックは、包括的なベンチマークの欠如である。
このボトルネックに対処するため、3つのモードすべてを提供する最初の大規模ベンチマークであるMoSu(Most Replayed Multimodal Video Summarization)を導入する。
TripleSummは最先端のパフォーマンスを実現し、MoSuを含む4つのベンチマークにおいて、既存のメソッドよりも大きなマージンを達成している。
私たちのコードとデータセットはhttps://github.com/smkim37/TripleSumm.comで公開されています。
関連論文リスト
- UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution [62.10676832966289]
カスケードビデオ超解像は、大規模な基礎モデルを用いて高解像度ビデオを生成するための有望な技術として登場した。
UniMMVSRは,テキスト,画像,ビデオを含むハイブリッドモード条件を組み込んだ最初の統合ビデオ超解像フレームワークである。
実験の結果、UniMMVSRは既存の手法よりも優れており、より細部が良く、マルチモーダル条件への適合度が高いビデオを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-09T12:25:16Z) - TriPSS: A Tri-Modal Keyframe Extraction Framework Using Perceptual, Structural, and Semantic Representations [0.31224081969539713]
TriPSSは、CIELAB色空間からの知覚的特徴、ResNet-50からの構造的埋め込み、フレームレベルのキャプションからのセマンティックコンテキストを統合するトリモーダルフレームワークである。
TriPSSは最先端の性能を達成し、非モーダルと先行マルチモーダルの両方のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T19:44:49Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。
CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文 参考訳(メタデータ) (2025-03-01T06:13:13Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning [65.30592368928723]
ビデオ要約は、長いビデオの短く、正確で、結束的な要約を作ることを目的としている。
既存のデータセットのほとんどは、ビデオ間要約用に作成されている。
マルチモーダル映像要約への取り組みが近年行われている。
論文 参考訳(メタデータ) (2024-04-18T17:32:46Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。