論文の概要: Evaluating Semantic Accuracy of Data-to-Text Generation with Natural
Language Inference
- arxiv url: http://arxiv.org/abs/2011.10819v1
- Date: Sat, 21 Nov 2020 16:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:14:51.434479
- Title: Evaluating Semantic Accuracy of Data-to-Text Generation with Natural
Language Inference
- Title(参考訳): 自然言語推論によるデータ・テキスト生成の意味的精度の評価
- Authors: Ond\v{r}ej Du\v{s}ek and Zden\v{e}k Kasner
- Abstract要約: データ・トゥ・テキスト(D2T)の生成を評価する上での大きな課題は、生成されたテキストの意味的精度を測定することである。
我々は、自然言語推論(NLI)のために事前訓練されたニューラルネットワークモデルに基づいて、D2T生成の意味的精度を評価するための新しい指標を提案する。
近年の2つのD2Tデータセットに対する実験により, 誤ったシステム出力の同定において, 精度の高い測定値が得られた。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in evaluating data-to-text (D2T) generation is measuring
the semantic accuracy of the generated text, i.e. checking if the output text
contains all and only facts supported by the input data. We propose a new
metric for evaluating the semantic accuracy of D2T generation based on a neural
model pretrained for natural language inference (NLI). We use the NLI model to
check textual entailment between the input data and the output text in both
directions, allowing us to reveal omissions or hallucinations. Input data are
converted to text for NLI using trivial templates. Our experiments on two
recent D2T datasets show that our metric can achieve high accuracy in
identifying erroneous system outputs.
- Abstract(参考訳): data-to-text (d2t) 生成を評価する上での大きな課題は、生成されたテキストの意味的正確性を測定することである。
自然言語推論(NLI)のために事前訓練されたニューラルネットワークモデルに基づいて,D2T生成のセマンティックな精度を評価するための新しい指標を提案する。
我々は、NLIモデルを用いて、入力データと出力テキストの両方向のテキストエントロメントをチェックし、省略や幻覚を明らかにする。
入力データは、自明なテンプレートを使用してNLIのテキストに変換される。
近年の2つのD2Tデータセットに対する実験により,誤ったシステム出力の同定において精度の高い測定値が得られた。
関連論文リスト
- RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - AGGGEN: Ordering and Aggregating while Generating [12.845842212733695]
本稿では,2つの明示的な文計画段階をニューラルデータ・トゥ・テキストシステムに再導入するデータ・ツー・テキスト・モデルAGGGENを提案する。
AGGGENは、入力表現とターゲットテキスト間の遅延アライメントを学習してテキストを生成すると同時に、文計画を実行する。
論文 参考訳(メタデータ) (2021-06-10T08:14:59Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。