論文の概要: Neural Diarization with Non-autoregressive Intermediate Attractors
- arxiv url: http://arxiv.org/abs/2303.06806v1
- Date: Mon, 13 Mar 2023 01:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:49:09.546268
- Title: Neural Diarization with Non-autoregressive Intermediate Attractors
- Title(参考訳): 非自己回帰性中間アトラクタによる神経ダイアリゼーション
- Authors: Yusuke Fujita, Tatsuya Komatsu, Robin Scheibler, Yusuke Kida, Tetsuji
Ogawa
- Abstract要約: 本稿では,フレーム間のラベル依存を導入した新しいEENDモデルを提案する。
2話者CALLHOMEデータセットを用いた実験により,提案した非自己回帰型中間誘引器を用いた中間ラベルによりダイアリゼーション性能が向上した。
- 参考スコア(独自算出の注目度): 37.49735004139322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end neural diarization (EEND) with encoder-decoder-based attractors
(EDA) is a promising method to handle the whole speaker diarization problem
simultaneously with a single neural network. While the EEND model can produce
all frame-level speaker labels simultaneously, it disregards output label
dependency. In this work, we propose a novel EEND model that introduces the
label dependency between frames. The proposed method generates
non-autoregressive intermediate attractors to produce speaker labels at the
lower layers and conditions the subsequent layers with these labels. While the
proposed model works in a non-autoregressive manner, the speaker labels are
refined by referring to the whole sequence of intermediate labels. The
experiments with the two-speaker CALLHOME dataset show that the intermediate
labels with the proposed non-autoregressive intermediate attractors boost the
diarization performance. The proposed method with the deeper network benefits
more from the intermediate labels, resulting in better performance and training
throughput than EEND-EDA.
- Abstract(参考訳): エンコーダデコーダベースアトラクタ(eda)を用いたエンドツーエンドニューラルネットワークダイアリゼーション(eend)は、単一のニューラルネットワークで話者ダイアリゼーション問題全体を同時処理する有望な方法である。
EENDモデルはすべてのフレームレベルの話者ラベルを同時に生成できるが、出力ラベルの依存性を無視する。
本研究では,フレーム間のラベル依存を導入した新しいEENDモデルを提案する。
提案手法は,非自己回帰型中間誘引器を生成し,下位層に話者ラベルを生成し,その後の層にラベルを付与する。
提案モデルは非自己回帰的に機能するが、話者ラベルは中間ラベルの全列を参照して洗練される。
2話者CALLHOMEデータセットを用いた実験により,提案した非自己回帰型中間誘引器を用いた中間ラベルによりダイアリゼーション性能が向上した。
より深いネットワークを持つ提案手法は,中間ラベルの利点が強く,EEND-EDAよりも性能とトレーニングのスループットが向上する。
関連論文リスト
- Adaptive Integration of Partial Label Learning and Negative Learning for
Enhanced Noisy Label Learning [23.847160480176697]
我々はtextbfNPN というシンプルながら強力なアイデアを提案し,このアイデアは textbfNoisy ラベル学習に革命をもたらす。
我々はNLの全ての非候補ラベルを用いて信頼性の高い補完ラベルを生成し、間接的な監督を通じてモデルロバスト性を高める。
合成劣化データセットと実世界の雑音データセットの両方で実施された実験は、他のSOTA法と比較してNPNの優位性を示している。
論文 参考訳(メタデータ) (2023-12-15T03:06:19Z) - Transductive CLIP with Class-Conditional Contrastive Learning [68.51078382124331]
雑音ラベル付き分類ネットワークをスクラッチから学習するための新しいフレームワークであるTransductive CLIPを提案する。
擬似ラベルへの依存を軽減するために,クラス条件のコントラスト学習機構を提案する。
アンサンブルラベルは、ノイズラベル付きディープニューラルネットワークのトレーニングを安定化するための擬似ラベル更新戦略として採用されている。
論文 参考訳(メタデータ) (2022-06-13T14:04:57Z) - Label-Enhanced Graph Neural Network for Semi-supervised Node
Classification [32.64730237473914]
グラフニューラルネットワーク(GNN)のためのラベル強化学習フレームワークを提案する。
まず、各ラベルをクラス内のノードの仮想センターとしてモデル化し、次にノードとラベルの両方の表現を共同で学習する。
提案手法は,同一クラスに属するノードの表現を円滑に行うだけでなく,ラベルセマンティクスをGNNの学習プロセスに明示的にエンコードする。
論文 参考訳(メタデータ) (2022-05-31T09:48:47Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Label Dependence-aware Sequence Generation Model for Multi-level
Implicit Discourse Relation Recognition [31.179555215952306]
暗黙の談話関係認識は、談話分析において難しいが重要な課題である。
ラベル依存型シーケンス生成モデル(LDSGM)を提案する。
ボトムアップ方向のラベル依存を利用した相互学習強化訓練法を開発した。
論文 参考訳(メタデータ) (2021-12-22T09:14:03Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Speaker-change Aware CRF for Dialogue Act Classification [0.0]
ダイアログ法(DA)の分類における最近の研究は、シーケンスラベリング問題としてタスクにアプローチしている。
本稿では,話者変化を考慮したCRF層の簡易な修正を提案する。
論文 参考訳(メタデータ) (2020-04-06T18:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。