論文の概要: Impact of enriched meaning representations for language generation in dialogue tasks: A comprehensive exploration of the relevance of tasks, corpora and metrics
- arxiv url: http://arxiv.org/abs/2603.29518v1
- Date: Tue, 31 Mar 2026 10:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.477058
- Title: Impact of enriched meaning representations for language generation in dialogue tasks: A comprehensive exploration of the relevance of tasks, corpora and metrics
- Title(参考訳): 対話課題における言語生成のための豊かな意味表現の影響:タスク・コーパス・メトリクスとの関連性に関する包括的考察
- Authors: Alain Vázquez, Maria Inés Torres,
- Abstract要約: 本研究では,意味表現がドメイン間の生成品質,コーパス特性,およびこれらの世代を評価するために使用される指標に与える影響を比較検討した。
提案したリッチな入力は,MRや文の変動性の高い複雑なタスクや小さなデータセットに有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational systems should generate diverse language forms to interact fluently and accurately with users. In this context, Natural Language Generation (NLG) engines convert Meaning Representations (MRs) into sentences, directly influencing user perception. These MRs usually encode the communicative function (e.g., inform, request, confirm) via DAs and enumerate the semantic content with slot-value pairs. In this work, our objective is to analyse whether providing a task demonstrator to the generator enhances the generations of a fine-tuned model. This demonstrator is an MR-sentence pair extracted from the original dataset that enriches the input at training and inference time. The analysis involves five metrics that focus on different linguistic aspects, and four datasets that differ in multiple features, such as domain, size, lexicon, MR variability, and acquisition process. To the best of our knowledge, this is the first study on dialogue NLG implementing a comparative analysis of the impact of MRs on generation quality across domains, corpus characteristics, and the metrics used to evaluate these generations. Our key insight is that the proposed enriched inputs are effective for complex tasks and small datasets with high variability in MRs and sentences. They are also beneficial in zero-shot settings for any domain. Moreover, the analysis of the metrics shows that semantic metrics capture generation quality more accurately than lexical metrics. In addition, among these semantic metrics, those trained with human ratings can detect omissions and other subtle semantic issues that embedding-based metrics often miss. Finally, the evolution of the metric scores and the excellent results for Slot Accuracy and Dialogue Act Accuracy demonstrate that the generative models present fast adaptability to different tasks and robustness at semantic and communicative intention levels.
- Abstract(参考訳): 会話システムは多様な言語形式を生成して,ユーザとの流動的かつ正確な対話を行なわなければならない。
この文脈では、自然言語生成(NLG)エンジンが意味表現(MR)を文に変換し、ユーザーの知覚に直接影響を与える。
これらのMRは通常、DAを介して通信関数(例えば、情報、要求、確認)を符号化し、スロット値ペアで意味内容を列挙する。
本研究の目的は,タスクデモレータをジェネレータに供給することで,微調整モデルの生成が促進されるかどうかを解析することである。
このデモレータは、トレーニング時と推論時に入力を豊かにする元のデータセットから抽出されたMR-文対である。
この分析には、異なる言語的側面に焦点を当てた5つのメトリクスと、ドメイン、サイズ、レキシコン、MR可変性、取得プロセスなど、複数の特徴が異なる4つのデータセットが含まれる。
我々の知る限りでは、MRsがドメイン間の生成品質、コーパス特性、およびこれらの世代を評価するために使用される指標に与える影響を比較分析した初めての対話型NLG研究である。
我々の重要な洞察は、提案された豊富な入力は、MRや文に高い可変性を持つ複雑なタスクや小さなデータセットに有効であるということである。
また、任意のドメインに対してゼロショット設定でも有益である。
さらに,これらの指標の分析から,意味的指標が語彙的指標よりも精度の高い生成品質を捉えていることが示唆された。
さらに、これらのセマンティックメトリクスのうち、人間の評価で訓練されたものは、欠落や、埋め込みベースのメトリクスがしばしば見逃すような微妙なセマンティックな問題を検出することができる。
最後に、メトリクススコアの進化とスロット精度と対話行為の精度の優れた結果から、生成モデルは異なるタスクに迅速に適応し、意味的およびコミュニケーション的意図レベルで堅牢性を示すことを示した。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。