Fugu-MT 論文翻訳(概要): Partially-Aligned Data-to-Text Generation with Distant Supervision

論文の概要: Partially-Aligned Data-to-Text Generation with Distant Supervision

arxiv url: http://arxiv.org/abs/2010.01268v1
Date: Sat, 3 Oct 2020 03:18:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 09:12:26.432343
Title: Partially-Aligned Data-to-Text Generation with Distant Supervision
Title（参考訳）: 遠隔監視による部分整合データ対テキスト生成
Authors: Zihao Fu, Bei Shi, Wai Lam, Lidong Bing, Zhiyuan Liu
Abstract要約: 我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
参考スコア（独自算出の注目度）: 69.15410325679635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Data-to-Text task aims to generate human-readable text for describing some given structured data enabling more interpretability. However, the typical generation task is confined to a few particular domains since it requires well-aligned data which is difficult and expensive to obtain. Using partially-aligned data is an alternative way of solving the dataset scarcity problem. This kind of data is much easier to obtain since it can be produced automatically. However, using this kind of data induces the over-generation problem posing difficulties for existing models, which tends to add unrelated excerpts during the generation procedure. In order to effectively utilize automatically annotated partially-aligned datasets, we extend the traditional generation task to a refined task called Partially-Aligned Data-to-Text Generation (PADTG) which is more practical since it utilizes automatically annotated data for training and thus considerably expands the application domains. To tackle this new task, we propose a novel distant supervision generation framework. It firstly estimates the input data's supportiveness for each target word with an estimator and then applies a supportiveness adaptor and a rebalanced beam search to harness the over-generation problem in the training and generation phases respectively. We also contribute a partially-aligned dataset (The data and source code of this paper can be obtained from https://github.com/fuzihaofzh/distant_supervision_nlg by sampling sentences from Wikipedia and automatically extracting corresponding KB triples for each sentence from Wikidata. The experimental results show that our framework outperforms all baseline models as well as verify the feasibility of utilizing partially-aligned data.
Abstract（参考訳）: data-to-textタスクは、与えられた構造化データを記述するための人読み可能なテキストを生成することを目的としている。しかしながら、典型的な生成タスクは、入手が困難でコストがかかる整列したデータを必要とするため、いくつかの特定のドメインに限定される。部分的に整合したデータを使用することは、データセットの不足問題を解決する方法のひとつだ。この種のデータは、自動的に生成できるので、入手がずっと簡単です。しかし、この種のデータを使用することで、既存のモデルでは過剰な問題が発生し、生成手順中に無関係な抜粋を追加する傾向があります。自動アノテートされた部分アライメントデータセットを効果的に活用するために、従来の生成タスクをPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる洗練されたタスクに拡張する。この新しい課題に取り組むために,新しい遠隔監督生成フレームワークを提案する。まず、対象単語毎の入力データの支持度を推定器で推定し、その後、サポート性適応器とリバランスビーム探索を適用して、訓練および生成段階における過剰発生問題を活用する。また、ウィキペディアから文をサンプリングし、Wikidataから各文に対応するKBトリプルを自動的に抽出することで、https://github.com/fuzihaofzh/distant_supervision_nlgからデータとソースコードを得ることが出来る。実験の結果,本フレームワークはすべてのベースラインモデルを上回る性能を示し,部分整合データの利用可能性を検証する。

関連論文リスト

DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation [24.091769825963173]
DeFine(Decomposed and Fine-fine annotated dataset for long-form article generation)を紹介する。 DeFineは階層的な分解戦略とドメイン固有の知識とマルチレベルアノテーションの統合によって特徴付けられる。実験結果から, テキスト品質, 特にトピックカバレッジ, 情報深度, 内容の忠実度が有意に向上した。
論文参考訳（メタデータ） (2025-03-10T10:48:00Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-05-24T06:44:42Z)
ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。データ曖昧化と文の融合という2つのステップから構成される。実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文参考訳（メタデータ） (2022-10-09T19:17:43Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文参考訳（メタデータ） (2022-03-22T12:26:56Z)
Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文参考訳（メタデータ） (2020-10-23T21:52:38Z)
Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文参考訳（メタデータ） (2020-10-12T06:43:10Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。