論文の概要: A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts
- arxiv url: http://arxiv.org/abs/2503.06064v1
- Date: Sat, 08 Mar 2025 05:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:24.563628
- Title: A Novel Trustworthy Video Summarization Algorithm Through a Mixture of LoRA Experts
- Title(参考訳): LoRAエキスパートの混合による信頼性の高いビデオ要約アルゴリズム
- Authors: Wenzhuo Du, Gerun Wang, Guancheng Chen, Hang Zhao, Xin Li, Jian Gao,
- Abstract要約: ビデオラマは、映像要約を生成する効果的なツールであるが、時間的特徴と空間的特徴のモデリングを効果的に統一し、最適化することはできない。
我々は、ビデオデータに固有の複雑な時間的ダイナミクスと空間的関係をより効率的に捉えるために、MiLoRA-ViSumを提案する。
MiLoRA-ViSumは、最先端のモデルと比較して最高の要約性能を達成し、計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 29.05750068740863
- License:
- Abstract: With the exponential growth of user-generated content on video-sharing platforms, the challenge of facilitating efficient searching and browsing of videos has garnered significant attention. To enhance users' ability to swiftly locate and review pertinent videos, the creation of concise and informative video summaries has become increasingly important. Video-llama is an effective tool for generating video summarization, but it cannot effectively unify and optimize the modeling of temporal and spatial features and requires a lot of computational resources and time. Therefore, we propose MiLoRA-ViSum to more efficiently capture complex temporal dynamics and spatial relationships inherent in video data and to control the number of parameters for training. By extending traditional Low-Rank Adaptation (LoRA) into a sophisticated mixture-of-experts paradigm, MiLoRA-ViSum incorporates a dual temporal-spatial adaptation mechanism tailored specifically for video summarization tasks. This approach dynamically integrates specialized LoRA experts, each fine-tuned to address distinct temporal or spatial dimensions. Extensive evaluations of the VideoXum and ActivityNet datasets demonstrate that MiLoRA-ViSum achieves the best summarization performance compared to state-of-the-art models, while maintaining significantly lower computational costs. The proposed mixture-of-experts strategy, combined with the dual adaptation mechanism, highlights the model's potential to enhance video summarization capabilities, particularly in large-scale applications requiring both efficiency and precision.
- Abstract(参考訳): ビデオ共有プラットフォーム上でのユーザ生成コンテンツの指数的な増加に伴い、効率的な検索とブラウジングを容易にするという課題が注目されている。
ユーザが関連動画を素早く見つけてレビューする能力を高めるために、簡潔で情報に富んだ要約を作成することがますます重要になっている。
ビデオラマはビデオ要約を生成する効果的なツールであるが、時間的・空間的特徴のモデリングを効果的に統一・最適化することはできず、多くの計算資源と時間を必要とする。
そこで本稿では,ビデオデータに固有の複雑な時間的ダイナミクスや空間的関係をより効率的に把握し,トレーニング用パラメータの数を制御するためのMiLoRA-ViSumを提案する。
従来のLow-Rank Adaptation (LoRA)を高度なMix-of-expertsパラダイムに拡張することで、MiLoRA-ViSumはビデオ要約タスクに特化した2つの時間空間適応機構を組み込む。
このアプローチは特殊なLoRA専門家を動的に統合し、それぞれ異なる時間的あるいは空間的な次元に対処するように微調整する。
VideoXumとActivityNetデータセットの大規模な評価は、MiLoRA-ViSumが最先端のモデルと比較して最高の要約性能を達成し、計算コストを著しく低減していることを示している。
提案したミックス・オブ・エキスパート戦略は、二重適応機構と組み合わせて、特に効率と精度の両方を必要とする大規模アプリケーションにおいて、映像要約能力を向上するモデルの可能性を強調している。
関連論文リスト
- Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文 参考訳(メタデータ) (2024-07-11T13:11:21Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - A Gated Fusion Network for Dynamic Saliency Prediction [16.701214795454536]
Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-02-15T17:18:37Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - Exploring global diverse attention via pairwise temporal relation for
video summarization [84.28263235895798]
我々は,Global Diverse Attentionによるビデオ要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したモデルは計算コストを大幅に削減して並列に実行できる。
論文 参考訳(メタデータ) (2020-09-23T06:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。