論文の概要: Multi-Axis Speech Similarity via Factor-Partitioned Embeddings
- arxiv url: http://arxiv.org/abs/2605.02804v2
- Date: Thu, 07 May 2026 20:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.727268
- Title: Multi-Axis Speech Similarity via Factor-Partitioned Embeddings
- Title(参考訳): 因子分割埋め込みによる多軸音声の類似性
- Authors: Jim O'Regan, Jens Edlund,
- Abstract要約: 本稿では,各発話を1つのベクトルにマッピングする因子分割埋め込みフレームワークを提案する。
共有音響エンコーダは、それぞれ専門教師の蒸留により訓練された軸方向の線形投影ヘッドを供給している。
我々は、ハーバードの文プロンプトを共有するコーパス上でのクロスコーパス検索を評価する。
- 参考スコア(独自算出の注目度): 4.241208172557664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech encodes multiple simultaneous attributes -- linguistic content, speaker identity, dialect, gender --that conventional single-vector embeddings conflate. We present a factor-partitioned embedding framework that maps each utterance into a single vector whose subspaces correspond to distinct axes of variation. A shared acoustic encoder feeds per-axis linear projection heads, each trained via distillation from a specialist teacher or a contrastive objective over shared-label pairs. The resulting embeddings support attribute-conditioned retrieval: similarity is computed as a signed weighted sum over per-axis cosine scores, allowing retrieval that jointly considers what was said and how -- or explicitly suppresses one attribute to surface another. We evaluate on cross-corpus retrieval over corpora sharing the Harvard sentence prompts, demonstrating that signed axis weighting can suppress same-speaker bias and surface semantically matched utterances across recording conditions. Code is available at: https://github.com/jimregan/spoken-sentence-transformers
- Abstract(参考訳): 音声は、言語内容、話者のアイデンティティ、方言、性別など、従来の単一ベクトル埋め込みが強調する複数の同時属性を符号化する。
本稿では,各発話を,部分空間が変化の異なる軸に対応する1つのベクトルにマッピングする因子分割埋め込みフレームワークを提案する。
共用音響エンコーダは、専門教師の蒸留により訓練された各軸方向の直線射影ヘッド、または、共用ラベル対よりも対照的な目的を供給する。
その結果得られる埋め込みは属性条件付き検索をサポートする:類似性は軸ごとのコサインスコアよりも符号付き重み付き和として計算される。
本研究では,ハーバードの文プロンプトを共有するコーパス上でのクロスコーパス検索について評価し,符号付き軸重み付けが同一話者バイアスを抑えることを示した。
コードは、https://github.com/jimregan/spoken-sentence-transformersで入手できる。
関連論文リスト
- AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Graph Attention Networks for Speaker Verification [43.01058120303278]
本研究は,グラフアテンションネットワークを用いた話者検証のための新しいバックエンドフレームワークを提案する。
まず、セグメントワイド話者埋め込みを用いてグラフを構築し、それらをグラフアテンションネットワークに入力する。
残りの接続を持つグラフ注意層を数層に分割した後、各ノードはアフィン変換を用いて一次元空間に投影される。
論文 参考訳(メタデータ) (2020-10-22T09:08:02Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Probabilistic embeddings for speaker diarization [13.276960253126656]
非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
論文 参考訳(メタデータ) (2020-04-06T14:51:01Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。