論文の概要: Search and Learn: Improving Semantic Coverage for Data-to-Text
Generation
- arxiv url: http://arxiv.org/abs/2112.02770v1
- Date: Mon, 6 Dec 2021 03:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:28:59.394294
- Title: Search and Learn: Improving Semantic Coverage for Data-to-Text
Generation
- Title(参考訳): 検索と学習:データ-テキスト生成のための意味的カバレッジの改善
- Authors: Shailza Jolly, Zi Xuan Zhang, Andreas Dengel, Lili Mou
- Abstract要約: 本研究では,テキスト生成に焦点をあてる。
本稿では,事前学習された言語モデルを活用する検索学習手法を提案する。
実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。
- 参考スコア(独自算出の注目度): 30.07712039293558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-to-text generation systems aim to generate text descriptions based on
input data (often represented in the tabular form). A typical system uses huge
training samples for learning the correspondence between tables and texts.
However, large training sets are expensive to obtain, limiting the
applicability of these approaches in real-world scenarios. In this work, we
focus on few-shot data-to-text generation. We observe that, while fine-tuned
pretrained language models may generate plausible sentences, they suffer from
the low semantic coverage problem in the few-shot setting. In other words,
important input slots tend to be missing in the generated text. To this end, we
propose a search-and-learning approach that leverages pretrained language
models but inserts the missing slots to improve the semantic coverage. We
further fine-tune our system based on the search results to smooth out the
search noise, yielding better-quality text and improving inference efficiency
to a large extent. Experiments show that our model achieves high performance on
E2E and WikiBio datasets. Especially, we cover 98.35% of input slots on E2E,
largely alleviating the low coverage problem.
- Abstract(参考訳): データ-テキスト生成システムは、入力データ(しばしば表形式で表される)に基づいてテキスト記述を生成することを目的としている。
典型的なシステムは、テーブルとテキストの対応を学ぶために巨大なトレーニングサンプルを使用する。
しかし、大規模なトレーニングセットは入手するのに高価であり、現実のシナリオにおけるこれらのアプローチの適用性を制限する。
本研究では,データ対テキスト生成に焦点をあてる。
我々は、微調整された事前学習言語モデルが可読な文を生成するのに対して、数ショット設定では意味的カバレッジの低い問題に悩まされていることを観察した。
言い換えれば、重要な入力スロットは生成されたテキストに欠落する傾向がある。
そこで本研究では,事前学習された言語モデルを活用した検索学習手法を提案する。
さらに,検索ノイズを円滑に除去し,良質なテキストを生成し,推論効率を大幅に向上させるため,検索結果に基づいてシステムを微調整する。
実験の結果,E2E と WikiBio のデータセットで高い性能が得られた。
特に、E2Eの入力スロットの98.35%をカバーし、低カバレッジ問題を緩和しています。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - AGGGEN: Ordering and Aggregating while Generating [12.845842212733695]
本稿では,2つの明示的な文計画段階をニューラルデータ・トゥ・テキストシステムに再導入するデータ・ツー・テキスト・モデルAGGGENを提案する。
AGGGENは、入力表現とターゲットテキスト間の遅延アライメントを学習してテキストを生成すると同時に、文計画を実行する。
論文 参考訳(メタデータ) (2021-06-10T08:14:59Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。