論文の概要: Audio Summarization with Audio Features and Probability Distribution
Divergence
- arxiv url: http://arxiv.org/abs/2001.07098v2
- Date: Thu, 2 Apr 2020 09:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:30:39.006367
- Title: Audio Summarization with Audio Features and Probability Distribution
Divergence
- Title(参考訳): 音声特徴量と確率分布の発散を用いた音声要約
- Authors: Carlos-Emiliano Gonz\'alez-Gallardo, Romain Deveaud, Eric SanJuan, and
Juan-Manuel Torres-Moreno
- Abstract要約: 音声特徴量と分布のばらつきの確率に基づく音声要約に着目した。
本手法は,抽出的要約手法に基づいて,時間しきい値に達するまで最も関連性の高いセグメントを選択することを目的としている。
- 参考スコア(独自算出の注目度): 1.0587107940165885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The automatic summarization of multimedia sources is an important task that
facilitates the understanding of an individual by condensing the source while
maintaining relevant information. In this paper we focus on audio summarization
based on audio features and the probability of distribution divergence. Our
method, based on an extractive summarization approach, aims to select the most
relevant segments until a time threshold is reached. It takes into account the
segment's length, position and informativeness value. Informativeness of each
segment is obtained by mapping a set of audio features issued from its
Mel-frequency Cepstral Coefficients and their corresponding Jensen-Shannon
divergence score. Results over a multi-evaluator scheme shows that our approach
provides understandable and informative summaries.
- Abstract(参考訳): マルチメディアソースの自動要約は、関連情報を維持しながらソースを凝縮することで個人の理解を促進する重要なタスクである。
本稿では,音声特徴量と分布のばらつきの確率に基づく音声要約に着目した。
本手法は,抽出要約手法に基づき,時間しきい値に達するまで最も関連するセグメントを選択することを目的としている。
セグメントの長さ、位置、情報度を考慮に入れます。
メル周波数ケプストラム係数とその対応するジェンセン・シャノン分岐スコアから発行される音声特徴のセットをマッピングして各セグメントの情報性を得る。
マルチ評価手法による結果から,本手法が理解可能かつ情報的要約を提供することを示す。
関連論文リスト
- Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - LLM Based Multi-Document Summarization Exploiting Main-Event Biased
Monotone Submodular Content Extraction [42.171703872560286]
マルチドキュメントの要約は、その固有の主観的バイアスのために難しい課題である。
我々は,関連ニュース資料群の主要イベントに着目し,ニュース要約の客観性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-10-05T09:38:09Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。