論文の概要: R2D2: Robust Data-to-Text with Replacement Detection
- arxiv url: http://arxiv.org/abs/2205.12467v1
- Date: Wed, 25 May 2022 03:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 18:03:08.631537
- Title: R2D2: Robust Data-to-Text with Replacement Detection
- Title(参考訳): R2D2: 置換検出付きロバストデータテキスト
- Authors: Linyong Nan, Lorenzo Jaime Yu Flores, Yilun Zhao, Yixin Liu, Luke
Benson, Weijin Zou, Dragomir Radev
- Abstract要約: R2D2は不誠実なData-to-Text生成に対処するトレーニングフレームワークです。
我々は、D2Tシステムのエンティティ検索能力が貧弱であることが、不信の原因の1つだと論じている。
実験の結果,R2D2システムは不信なテキスト生成を効果的に軽減できることがわかった。
- 参考スコア(独自算出の注目度): 16.53137103104244
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unfaithful text generation is a common problem for text generation systems.
In the case of Data-to-Text (D2T) systems, the factuality of the generated text
is particularly crucial for any real-world applications. We introduce R2D2, a
training framework that addresses unfaithful Data-to-Text generation by
training a system both as a generator and a faithfulness discriminator with
additional replacement detection and unlikelihood learning tasks. To facilitate
such training, we propose two methods for sampling unfaithful sentences. We
argue that the poor entity retrieval capability of D2T systems is one of the
primary sources of unfaithfulness, so in addition to the existing metrics, we
further propose NER-based metrics to evaluate the fidelity of D2T generations.
Our experimental results show that R2D2 systems could effectively mitigate the
unfaithful text generation, and they achieve new state-of-the-art results on
FeTaQA, LogicNLG, and ToTTo, all with significant improvements.
- Abstract(参考訳): 不誠実テキスト生成は、テキスト生成システムにおいて一般的な問題である。
Data-to-Text(D2T)システムの場合、生成されたテキストの事実性は現実世界のアプリケーションにとって特に重要である。
R2D2は、生成器と忠実判別器の両方を訓練することで、不誠実なデータ・テキスト生成に対処する訓練フレームワークである。
そこで本研究では,不適切な文をサンプリングする2つの方法を提案する。
我々は,D2Tシステムのエンティティ検索能力の貧弱さが不信感の主な原因であると主張し,既存の指標に加えて,D2T世代の有効性を評価するためのNERベースの指標も提案する。
実験結果から,R2D2 システムは不確実なテキスト生成を効果的に軽減し,FeTaQA,LogicNLG,ToTTo に対する新たな最先端結果が得られることが示唆された。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Evaluating Semantic Accuracy of Data-to-Text Generation with Natural
Language Inference [3.42658286826597]
データ・トゥ・テキスト(D2T)の生成を評価する上での大きな課題は、生成されたテキストの意味的精度を測定することである。
我々は、自然言語推論(NLI)のために事前訓練されたニューラルネットワークモデルに基づいて、D2T生成の意味的精度を評価するための新しい指標を提案する。
近年の2つのD2Tデータセットに対する実験により, 誤ったシステム出力の同定において, 精度の高い測定値が得られた。
論文 参考訳(メタデータ) (2020-11-21T16:37:28Z) - Tweet to News Conversion: An Investigation into Unsupervised
Controllable Text Generation [46.74654716230366]
本稿では,災害領域のツイートの集合からコヒーレントな段落を構築するタスクを定義する。
パイプライン内に2つのシステムを構築することでこの問題に対処する。最初のシステムは教師なしスタイル転送に焦点を当て、個々のつぶやきをニュース文に変換する。
第2のシステムは、第1のシステムからの出力を縫合してコヒーレントニュース段落を形成する。
論文 参考訳(メタデータ) (2020-08-21T06:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。