論文の概要: Shape of synth to come: Why we should use synthetic data for English
surface realization
- arxiv url: http://arxiv.org/abs/2005.02693v1
- Date: Wed, 6 May 2020 10:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:33:58.568058
- Title: Shape of synth to come: Why we should use synthetic data for English
surface realization
- Title(参考訳): 合成の形状:なぜ英語表面実現に合成データを使うべきか
- Authors: Henry Elder and Robert Burke and Alexander O'Connor and Jennifer
Foster
- Abstract要約: 2018年の共有タスクでは、追加で合成されたデータを使用してトレーニングされたシステムの絶対的なパフォーマンスにはほとんど差がなかった。
我々は、2018年の英語データセットの実験において、合成データの使用はかなりの効果があることを示した。
我々は、こうしたデータを活用するシステムについて、今後の研究努力が引き続き探求されるよう、禁止されるのではなく、その使用を奨励すべきであると主張している。
- 参考スコア(独自算出の注目度): 72.62356061765976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Surface Realization Shared Tasks of 2018 and 2019 were Natural Language
Generation shared tasks with the goal of exploring approaches to surface
realization from Universal-Dependency-like trees to surface strings for several
languages. In the 2018 shared task there was very little difference in the
absolute performance of systems trained with and without additional,
synthetically created data, and a new rule prohibiting the use of synthetic
data was introduced for the 2019 shared task. Contrary to the findings of the
2018 shared task, we show, in experiments on the English 2018 dataset, that the
use of synthetic data can have a substantial positive effect - an improvement
of almost 8 BLEU points for a previously state-of-the-art system. We analyse
the effects of synthetic data, and we argue that its use should be encouraged
rather than prohibited so that future research efforts continue to explore
systems that can take advantage of such data.
- Abstract(参考訳): 2018年と2019年のsurface realization共有タスクは自然言語生成共有タスクであり、ユニバーサル依存性のような木からいくつかの言語のsurface stringへのサーフェス実現アプローチを探求することを目的としている。
2018年の共有タスクでは、追加で合成されたデータでトレーニングされたシステムの絶対的なパフォーマンスにはほとんど違いがなく、2019年の共有タスクで合成データの使用を禁止する新しいルールが導入された。
2018年の共有タスクの結果とは対照的に、イングリッシュ2018データセットの実験では、前回の最先端システムにおいて、合成データの使用が実質的なポジティブな効果をもたらすことが示されている。
我々は、合成データの効果を分析し、その使用が禁止されるよりも奨励されるべきであると論じ、今後の研究努力がそうしたデータを活用するシステムを探究する。
関連論文リスト
- Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - BERTtime Stories: Investigating the Role of Synthetic Story Data in Language pre-training [1.8817715864806608]
TinyStories を用いた言語事前学習における合成物語データの効果について検討した。
TinyStoriesのサブセット上でGPT-Neoモデルをトレーニングします。
1億語未満の単語にアクセスしても、モデルは与えられたストーリーに対して高品質でオリジナルな補完を生成することができる。
論文 参考訳(メタデータ) (2024-10-20T11:47:17Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance
Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。
このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。
本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-05T17:57:26Z) - Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science [13.854807858791652]
我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。
本研究では,合成データの忠実度を高めるための3つの戦略について検討する。
本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
論文 参考訳(メタデータ) (2023-05-24T11:27:59Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。