Fugu-MT 論文翻訳(概要): SIG: Speaker Identification in Literature via Prompt-Based Generation

論文の概要: SIG: Speaker Identification in Literature via Prompt-Based Generation

arxiv url: http://arxiv.org/abs/2312.14590v2
Date: Mon, 19 Feb 2024 09:25:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 03:55:45.029553
Title: SIG: Speaker Identification in Literature via Prompt-Based Generation
Title（参考訳）: SIG: Prompt-based generation を用いた文学における話者識別
Authors: Zhenlin Su, Liyan Xu, Jin Xu, Jiangnan Li, Mingdu Huangfu
Abstract要約: 本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
参考スコア（独自算出の注目度）: 13.042070464592374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying speakers of quotations in narratives is an important task in literary analysis, with challenging scenarios including the out-of-domain inference for unseen speakers, and non-explicit cases where there are no speaker mentions in surrounding context. In this work, we propose a simple and effective approach SIG, a generation-based method that verbalizes the task and quotation input based on designed prompt templates, which also enables easy integration of other auxiliary tasks that further bolster the speaker identification performance. The prediction can either come from direct generation by the model, or be determined by the highest generation probability of each speaker candidate. Based on our approach design, SIG supports out-of-domain evaluation, and achieves open-world classification paradigm that is able to accept any forms of candidate input. We perform both cross-domain evaluation and in-domain evaluation on PDNC, the largest dataset of this task, where empirical results suggest that SIG outperforms previous baselines of complicated designs, as well as the zero-shot ChatGPT, especially excelling at those hard non-explicit scenarios by up to 17% improvement. Additional experiments on another dataset WP further corroborate the efficacy of SIG.
Abstract（参考訳）: 物語における引用の話者を特定することは文学的分析において重要な課題であり、未知の話者に対するドメイン外推論や、周囲の文脈に話者の言及がない非議論的なケースなど、難しいシナリオがある。本研究では,設計したプロンプトテンプレートに基づいてタスクと引用入力を口頭で表現し,他の補助タスクと容易に統合し,話者識別性能をさらに高めるための簡易かつ効果的な手法であるsigを提案する。予測はモデルによる直接生成から生じるか、または各話者候補の最大生成確率によって決定される。我々のアプローチ設計に基づき、SIGはドメイン外評価をサポートし、任意の形式の候補入力を受け入れることができるオープンワールド分類パラダイムを実現する。我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行い,SIGがそれまでの複雑な設計のベースラインを上回り,特に難易度のないシナリオでは最大17%改善した。別のデータセットWPに関する追加実験は、SIGの有効性をさらに裏付ける。

関連論文リスト

TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models [43.761503775097104]
対象話者音声処理ユニバーサルパフォーマンスベンチマーク(TS-SUPERB)を導入する。このベンチマークには、広く認識されている4つのターゲットスピーカー処理タスクが含まれている。入力音声から抽出した話者埋め込みは、下流モデルの条件付けの手がかりとして用いられる。
論文参考訳（メタデータ） (2025-05-10T14:23:37Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。 TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文参考訳（メタデータ） (2024-10-15T03:58:13Z)
Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。 NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-09-11T07:24:07Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction [37.27069171640074]
人間は単一話者を複雑な音響環境から容易に隔離することができ、これは「カクテルパーティー効果」と呼ばれる。従来のターゲット話者抽出アプローチはボイスプリントに依存しており、プライバシー上の懸念や、登録サンプルの品質と可用性に関する問題に直面している。この研究は、LLM-TSEという新しいテキスト誘導型TSEパラダイムを導入している。
論文参考訳（メタデータ） (2023-10-11T08:17:54Z)
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。 SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文参考訳（メタデータ） (2022-12-20T18:39:59Z)
Conversational Semantic Role Labeling with Predicate-Oriented Latent Graph [40.43625257213158]
本稿では,述語中心のガウス機構を持つ述語指向潜在グラフ(POLar)を自動生成する。 POLar構造は動的に切断され、タスクニーズに最適なように洗練される。さらに,対話レベルの事前学習型言語モデルであるCoDiaBERTを導入し,複数の発話文のサポートを向上する。
論文参考訳（メタデータ） (2022-10-06T16:42:00Z)
Referring Expressions with Rational Speech Act Framework: A Probabilistic Approach [2.1425861443122383]
本稿では,複雑な視覚シーンにおけるオブジェクトの抽出を目的とした参照表現生成(REG)タスクについて述べる。最近のREGシステムは、話者/リスナーエージェントを表現するためにディープラーニングアプローチを使用している。本稿では、確率的RSAフレームワークとディープラーニングアプローチを組み合わせて、複雑な視覚シーンを含む大規模データセットに適用する。
論文参考訳（メタデータ） (2022-05-16T16:37:50Z)
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (2021-11-19T18:59:23Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-09-14T08:44:46Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。