論文の概要: SIG: Speaker Identification in Literature via Prompt-Based Generation
- arxiv url: http://arxiv.org/abs/2312.14590v2
- Date: Mon, 19 Feb 2024 09:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:55:45.029553
- Title: SIG: Speaker Identification in Literature via Prompt-Based Generation
- Title(参考訳): SIG: Prompt-based generation を用いた文学における話者識別
- Authors: Zhenlin Su, Liyan Xu, Jin Xu, Jiangnan Li, Mingdu Huangfu
- Abstract要約: 本稿では,設計したプロンプトテンプレートに基づいてタスクと引用入力を言語化する生成手法を提案する。
予測はモデルによって直接生成されるか、各話者候補の最も高い生成確率で決定される。
我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行う。
- 参考スコア(独自算出の注目度): 13.042070464592374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying speakers of quotations in narratives is an important task in
literary analysis, with challenging scenarios including the out-of-domain
inference for unseen speakers, and non-explicit cases where there are no
speaker mentions in surrounding context. In this work, we propose a simple and
effective approach SIG, a generation-based method that verbalizes the task and
quotation input based on designed prompt templates, which also enables easy
integration of other auxiliary tasks that further bolster the speaker
identification performance. The prediction can either come from direct
generation by the model, or be determined by the highest generation probability
of each speaker candidate. Based on our approach design, SIG supports
out-of-domain evaluation, and achieves open-world classification paradigm that
is able to accept any forms of candidate input. We perform both cross-domain
evaluation and in-domain evaluation on PDNC, the largest dataset of this task,
where empirical results suggest that SIG outperforms previous baselines of
complicated designs, as well as the zero-shot ChatGPT, especially excelling at
those hard non-explicit scenarios by up to 17% improvement. Additional
experiments on another dataset WP further corroborate the efficacy of SIG.
- Abstract(参考訳): 物語における引用の話者を特定することは文学的分析において重要な課題であり、未知の話者に対するドメイン外推論や、周囲の文脈に話者の言及がない非議論的なケースなど、難しいシナリオがある。
本研究では,設計したプロンプトテンプレートに基づいてタスクと引用入力を口頭で表現し,他の補助タスクと容易に統合し,話者識別性能をさらに高めるための簡易かつ効果的な手法であるsigを提案する。
予測はモデルによる直接生成から生じるか、または各話者候補の最大生成確率によって決定される。
我々のアプローチ設計に基づき、SIGはドメイン外評価をサポートし、任意の形式の候補入力を受け入れることができるオープンワールド分類パラダイムを実現する。
我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行い,SIGがそれまでの複雑な設計のベースラインを上回り,特に難易度のないシナリオでは最大17%改善した。
別のデータセットWPに関する追加実験は、SIGの有効性をさらに裏付ける。
関連論文リスト
- Typing to Listen at the Cocktail Party: Text-Guided Target Speaker
Extraction [39.985710814952625]
本研究では,既存の話者抽出モデルの実現可能性,制御性,性能を高めるために,自然言語記述の統合について検討する。
本稿では,LLM-TSE というモデルを提案する。LLM-TSE は大きな言語モデル (LLM) を用いて,ユーザの入力入力から有用な意味的手がかりを抽出する。
実験の結果,テキストベースのキューのみを表示する場合の競合性能,タスクセレクタとして入力テキストを使用することの有効性,およびテキストベースのキューと事前登録されたキューを組み合わせる場合の新たな最先端性を示す。
論文 参考訳(メタデータ) (2023-10-11T08:17:54Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Conversational Semantic Role Labeling with Predicate-Oriented Latent
Graph [40.43625257213158]
本稿では,述語中心のガウス機構を持つ述語指向潜在グラフ(POLar)を自動生成する。
POLar構造は動的に切断され、タスクニーズに最適なように洗練される。
さらに,対話レベルの事前学習型言語モデルであるCoDiaBERTを導入し,複数の発話文のサポートを向上する。
論文 参考訳(メタデータ) (2022-10-06T16:42:00Z) - Referring Expressions with Rational Speech Act Framework: A
Probabilistic Approach [2.1425861443122383]
本稿では,複雑な視覚シーンにおけるオブジェクトの抽出を目的とした参照表現生成(REG)タスクについて述べる。
最近のREGシステムは、話者/リスナーエージェントを表現するためにディープラーニングアプローチを使用している。
本稿では、確率的RSAフレームワークとディープラーニングアプローチを組み合わせて、複雑な視覚シーンを含む大規模データセットに適用する。
論文 参考訳(メタデータ) (2022-05-16T16:37:50Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。