論文の概要: NATURE: Natural Auxiliary Text Utterances for Realistic Spoken Language
Evaluation
- arxiv url: http://arxiv.org/abs/2111.05196v1
- Date: Tue, 9 Nov 2021 15:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-11-10 15:08:04.609891
- Title: NATURE: Natural Auxiliary Text Utterances for Realistic Spoken Language
Evaluation
- Title(参考訳): 自然 : 自然な補助テキスト発話による現実的な音声言語評価
- Authors: David Alfonso-Hermelo, Ahmad Rashid, Abbas Ghaddar, Philippe Langlais,
Mehdi Rezagholizadeh
- Abstract要約: スロット充填と意図検出は音声アシスタントのような会話エージェントのバックボーンであり、研究の活発な領域である。
公開されているベンチマークの最先端技術は素晴らしいパフォーマンスを示しているが、現実的なシナリオに一般化する能力はまだ実証されていない。
本稿では,発話のセマンティクスを保ちながら,人間の話し言葉のバリエーションを導入するためのデータセットの評価セットに適用した,単純な音声言語指向変換の集合について述べる。
- 参考スコア(独自算出の注目度): 7.813460653362095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Slot-filling and intent detection are the backbone of conversational agents
such as voice assistants, and are active areas of research. Even though
state-of-the-art techniques on publicly available benchmarks show impressive
performance, their ability to generalize to realistic scenarios is yet to be
demonstrated. In this work, we present NATURE, a set of simple spoken-language
oriented transformations, applied to the evaluation set of datasets, to
introduce human spoken language variations while preserving the semantics of an
utterance. We apply NATURE to common slot-filling and intent detection
benchmarks and demonstrate that simple perturbations from the standard
evaluation set by NATURE can deteriorate model performance significantly.
Through our experiments we demonstrate that when NATURE operators are applied
to evaluation set of popular benchmarks the model accuracy can drop by up to
40%.
- Abstract(参考訳): スロット充填と意図検出は音声アシスタントのような会話エージェントのバックボーンであり、研究の活発な領域である。
公開ベンチマークの最先端技術は印象的なパフォーマンスを示しているが、現実的なシナリオに一般化する能力はまだ実証されていない。
本稿では,発話の意味を保ちつつ,人間の話し言葉のバリエーションを導入するために,データセットの評価集合に適用した,単純な音声言語指向変換のセットであるnatureを提案する。
一般的なスロット充填およびインテント検出ベンチマークにNATUREを適用し、NATUREが設定した標準評価からの単純な摂動がモデル性能を著しく劣化させることを示した。
実験により,人気のあるベンチマークの評価セットに自然演算子を適用すると,モデルの精度が最大40%低下することを示した。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.74065648648307]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios [47.08170350061827]
音声言語モデル(SLM)は近年急速に進歩し、性能評価のための多数のベンチマークが開発されている。
既存のベンチマークのほとんどは、SLMが大規模言語モデル(LLM)と同等の複雑なタスクを実行できるかどうかを評価することに重点を置いている。
リアルな中国語対話環境において,SLMの有効性を対話型エージェントとして評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-24T03:23:55Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Uncovering More Shallow Heuristics: Probing the Natural Language
Inference Capacities of Transformer-Based Pre-Trained Language Models Using
Syllogistic Patterns [9.031827448667086]
我々は、自然言語推論(NLI)のために微調整されたトランスフォーマーベース事前学習言語モデル(PLM)が使用する浅瀬を探索する。
モデルが特定の浅瀬に強く依存していることの証拠を見つけ、前提と仮説の間の対称性と対称性を拾い上げる。
論文 参考訳(メタデータ) (2022-01-19T14:15:41Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Naturalness Evaluation of Natural Language Generation in Task-oriented
Dialogues using BERT [6.1478669848771546]
本稿では,対話システムにおける自然言語生成の自然性を評価する手法を提案する。
BERTモデルの微調整により,提案した自然度評価法は,ロバストな結果を示し,ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T08:40:14Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。