論文の概要: Test-Time Adaptation for Video Highlight Detection Using Meta-Auxiliary Learning and Cross-Modality Hallucinations
- arxiv url: http://arxiv.org/abs/2508.04924v1
- Date: Wed, 06 Aug 2025 23:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.64672
- Title: Test-Time Adaptation for Video Highlight Detection Using Meta-Auxiliary Learning and Cross-Modality Hallucinations
- Title(参考訳): メタ補助学習とクロスモーダル幻覚を用いたビデオハイライト検出のためのテスト時間適応
- Authors: Zahidul Islam, Sujoy Paul, Mrigank Rochan,
- Abstract要約: 既存のビデオハイライト検出手法は、先進的ではあるが、すべてのテストビデオに対してうまく一般化するのに苦労している。
ビデオハイライト検出のためのテスト時間適応フレームワークであるHighlight-TTAを提案する。
Highlight-TTAは、主要なハイライト検出タスクと並行して、補助的なタスクであるクロスモダリティ幻覚を共同で最適化する。
- 参考スコア(独自算出の注目度): 13.2968942989609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video highlight detection methods, although advanced, struggle to generalize well to all test videos. These methods typically employ a generic highlight detection model for each test video, which is suboptimal as it fails to account for the unique characteristics and variations of individual test videos. Such fixed models do not adapt to the diverse content, styles, or audio and visual qualities present in new, unseen test videos, leading to reduced highlight detection performance. In this paper, we propose Highlight-TTA, a test-time adaptation framework for video highlight detection that addresses this limitation by dynamically adapting the model during testing to better align with the specific characteristics of each test video, thereby improving generalization and highlight detection performance. Highlight-TTA is jointly optimized with an auxiliary task, cross-modality hallucinations, alongside the primary highlight detection task. We utilize a meta-auxiliary training scheme to enable effective adaptation through the auxiliary task while enhancing the primary task. During testing, we adapt the trained model using the auxiliary task on the test video to further enhance its highlight detection performance. Extensive experiments with three state-of-the-art highlight detection models and three benchmark datasets show that the introduction of Highlight-TTA to these models improves their performance, yielding superior results.
- Abstract(参考訳): 既存のビデオハイライト検出手法は、先進的ではあるが、すべてのテストビデオに対してうまく一般化するのに苦労している。
これらの手法は典型的には各テストビデオに対して一般的なハイライト検出モデルを使用し、個々のテストビデオの特徴やバリエーションを考慮できないため、最適以下である。
このような固定モデルは、新しい、目に見えないテストビデオに存在する多様なコンテンツ、スタイル、オーディオ、視覚品質に適応せず、ハイライト検出性能を低下させる。
本稿では,テスト中のモデルを動的に適応させて,各テストビデオの特徴に適合させ,一般化とハイライト検出性能を向上させることで,この制限に対処するビデオハイライト検出のためのテスト時適応フレームワークであるHighlight-TTAを提案する。
Highlight-TTAは、主要なハイライト検出タスクと並行して、補助的なタスクであるクロスモダリティ幻覚を共同で最適化する。
補助課題による効果的な適応を可能にするため, 補助課題の強化を図りながら, メタ補助訓練を実践する。
テスト中、テストビデオの補助タスクを用いてトレーニングされたモデルを適用し、そのハイライト検出性能をさらに向上させる。
3つの最先端ハイライト検出モデルと3つのベンチマークデータセットによる大規模な実験により、これらのモデルにHighlight-TTAを導入したことにより、パフォーマンスが向上し、優れた結果が得られた。
関連論文リスト
- From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。
既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。
本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:52:34Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024 [34.921509504848025]
Road++ Track3は、トラフィックシナリオにおけるマルチラベルのアトミックアクティビティ認識タスクを提案する。
視覚的特徴抽出の堅牢性は依然として重要な課題である。
テストセットの最終mAPは58%で、チャレンジベースラインよりも4%高い。
論文 参考訳(メタデータ) (2024-10-21T14:10:14Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Point-TTA: Test-Time Adaptation for Point Cloud Registration Using
Multitask Meta-Auxiliary Learning [17.980649681325406]
我々は、ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAを提案する。
我々のモデルは、テストデータの事前の知識を必要とせずに、テスト時に目に見えない分布に適応することができる。
訓練中は, 補助タスクによる適応モデルにより主タスクの精度が向上するように, メタ補助学習アプローチを用いて訓練を行う。
論文 参考訳(メタデータ) (2023-08-31T06:32:11Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。