Fugu-MT 論文翻訳(概要): Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning

論文の概要: Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning

arxiv url: http://arxiv.org/abs/2403.09401v2
Date: Mon, 18 Mar 2024 12:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 23:14:54.817817
Title: Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning
Title（参考訳）: 表現アクティベーションシーケンス学習による教師なしモダリティ変換可能なビデオハイライト検出
Authors: Tingtian Li, Zixun Sun, Xinyu Xiao,
Abstract要約: 教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
参考スコア（独自算出の注目度）: 7.908887001497406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying highlight moments of raw video materials is crucial for improving the efficiency of editing videos that are pervasive on internet platforms. However, the extensive work of manually labeling footage has created obstacles to applying supervised methods to videos of unseen categories. The absence of an audio modality that contains valuable cues for highlight detection in many videos also makes it difficult to use multimodal strategies. In this paper, we propose a novel model with cross-modal perception for unsupervised highlight detection. The proposed model learns representations with visual-audio level semantics from image-audio pair data via a self-reconstruction task. To achieve unsupervised highlight detection, we investigate the latent representations of the network and propose the representation activation sequence learning (RASL) module with k-point contrastive learning to learn significant representation activations. To connect the visual modality with the audio modality, we use the symmetric contrastive learning (SCL) module to learn the paired visual and audio representations. Furthermore, an auxiliary task of masked feature vector sequence (FVS) reconstruction is simultaneously conducted during pretraining for representation enhancement. During inference, the cross-modal pretrained model can generate representations with paired visual-audio semantics given only the visual modality. The RASL module is used to output the highlight scores. The experimental results show that the proposed framework achieves superior performance compared to other state-of-the-art approaches.
Abstract（参考訳）: インターネット上で普及している動画の編集効率を向上させるためには,生動画のハイライトモーメントの同定が不可欠である。しかし、手動で映像をラベル付けする広範囲な作業は、目に見えないカテゴリーのビデオに教師ありの手法を適用するのに障害を生んでいる。多くのビデオにおいて、ハイライト検出のための貴重な手がかりを含むオーディオモダリティが欠如しているため、マルチモーダル戦略の使用も困難である。本稿では,教師なしハイライト検出のためのクロスモーダル認識モデルを提案する。提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。教師なしハイライト検出を実現するために,ネットワークの潜在表現を調査し,k点コントラスト学習を用いた表現アクティベーションシーケンス学習(RASL)モジュールを提案し,重要な表現アクティベーションを学習する。視覚のモダリティとオーディオのモダリティを結びつけるために,対称コントラスト学習(SCL)モジュールを用いて,ペア化された視覚と音声の表現を学習する。さらに、表現強調のための事前訓練中に、マスク付き特徴ベクトル列(FVS)再構成の補助タスクを同時に実施する。推論中、クロスモーダル事前学習モデルは、視覚的モダリティのみを与えられたペア化された視覚音響意味論による表現を生成することができる。 RASLモジュールはハイライトスコアを出力するために使用される。実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。

関連論文リスト

Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文参考訳（メタデータ） (2025-06-06T21:06:35Z)
CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文参考訳（メタデータ） (2024-10-18T14:43:34Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-28T10:01:36Z)
Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文参考訳（メタデータ） (2022-03-06T17:31:06Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)
Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文参考訳（メタデータ） (2020-08-10T16:18:01Z)
Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文参考訳（メタデータ） (2020-01-26T07:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。