論文の概要: ConceptBeam: Concept Driven Target Speech Extraction
- arxiv url: http://arxiv.org/abs/2207.11964v1
- Date: Mon, 25 Jul 2022 08:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 16:04:50.217970
- Title: ConceptBeam: Concept Driven Target Speech Extraction
- Title(参考訳): ConceptBeam: 概念駆動型ターゲット音声抽出
- Authors: Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki
Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, and Kunio Kashino
- Abstract要約: 本研究では,ConceptBeamと呼ばれる意味情報に基づくターゲット音声抽出のための新しいフレームワークを提案する。
提案手法では,概念記述子を共有埋め込み空間にマッピングすることにより,概念を意味埋め込みとして符号化する。
我々は、モダリティに依存した情報、すなわち混合中の音声セグメント、および特定のモダリティに依存しない概念をブリッジするためにそれを使用する。
- 参考スコア(独自算出の注目度): 69.85003619274295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for target speech extraction based on semantic
information, called ConceptBeam. Target speech extraction means extracting the
speech of a target speaker in a mixture. Typical approaches have been
exploiting properties of audio signals, such as harmonic structure and
direction of arrival. In contrast, ConceptBeam tackles the problem with
semantic clues. Specifically, we extract the speech of speakers speaking about
a concept, i.e., a topic of interest, using a concept specifier such as an
image or speech. Solving this novel problem would open the door to innovative
applications such as listening systems that focus on a particular topic
discussed in a conversation. Unlike keywords, concepts are abstract notions,
making it challenging to directly represent a target concept. In our scheme, a
concept is encoded as a semantic embedding by mapping the concept specifier to
a shared embedding space. This modality-independent space can be built by means
of deep metric learning using paired data consisting of images and their spoken
captions. We use it to bridge modality-dependent information, i.e., the speech
segments in the mixture, and the specified, modality-independent concept. As a
proof of our scheme, we performed experiments using a set of images associated
with spoken captions. That is, we generated speech mixtures from these spoken
captions and used the images or speech signals as the concept specifiers. We
then extracted the target speech using the acoustic characteristics of the
identified segments. We compare ConceptBeam with two methods: one based on
keywords obtained from recognition systems and another based on sound source
separation. We show that ConceptBeam clearly outperforms the baseline methods
and effectively extracts speech based on the semantic representation.
- Abstract(参考訳): 本稿では,意味情報に基づく音声抽出のための新しい枠組みであるconceptbeamを提案する。
ターゲット音声抽出手段は、ターゲット話者の音声を混合して抽出する。
典型的なアプローチは、高調波構造や到着方向などの音声信号の特性を利用したものである。
対照的に、ConceptBeamは意味的なヒントでこの問題に取り組む。
具体的には,ある概念,すなわち興味のある話題について話す話者の発話を,画像や音声などの概念特定器を用いて抽出する。
この新たな問題を解決することは、会話で議論される特定のトピックに焦点を当てたリスニングシステムのような革新的なアプリケーションへの扉を開くことになる。
キーワードとは異なり、概念は抽象概念であり、ターゲット概念を直接表現することは困難である。
本手法では,概念指定子を共有埋め込み空間にマッピングすることにより,概念を意味埋め込みとして符号化する。
このモダリティ非依存空間は、画像とそれらの音声キャプションからなるペアデータを用いて深度測定学習によって構築することができる。
我々は、モダリティに依存した情報、すなわち混合中の音声セグメント、および特定のモダリティに依存しない概念をブリッジするためにそれを使用する。
提案手法の実証として,音声キャプションに関連する一連の画像を用いて実験を行った。
すなわち、これらの音声キャプションから音声混合を生成し、その画像や音声信号を用いて概念特定を行う。
識別されたセグメントの音響特性を用いて対象音声を抽出した。
本研究では,認識システムから得られたキーワードをベースとしたConceptBeamと音源分離に基づく2つの手法を比較する。
概念ビームは, 基本法を明らかに上回り, 意味表現に基づく音声を効果的に抽出することを示す。
関連論文リスト
- Disentangling Textual and Acoustic Features of Neural Speech Representations [23.486891834252535]
我々は,複雑な音声表現のためのアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理に基づいて構築する。
我々は、感情認識と話者識別のための枠組みを下流のタスクに適用する。
論文 参考訳(メタデータ) (2024-10-03T22:48:04Z) - Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction [13.5641621193917]
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
生成した音声によって伝達される意味情報が、唇の動きによって伝達される意味情報と一致することを保証するために、対照的な意味マッチング損失を導入する。
論文 参考訳(メタデータ) (2024-04-19T09:08:44Z) - Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。