論文の概要: Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data
- arxiv url: http://arxiv.org/abs/2004.13645v1
- Date: Tue, 28 Apr 2020 16:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:09:55.761915
- Title: Unnatural Language Processing: Bridging the Gap Between Synthetic and
Natural Language Data
- Title(参考訳): 不自然な言語処理: 合成データと自然言語データのギャップを埋める
- Authors: Alana Marzoev, Samuel Madden, M. Frans Kaashoek, Michael Cafarella,
Jacob Andreas
- Abstract要約: 本稿では,言語理解問題における-simulation-to-real'転送手法を提案する。
我々のアプローチは、いくつかのドメインで自然言語データに基づいて訓練された最先端のモデルと一致または性能を向上する。
- 参考スコア(独自算出の注目度): 37.542036032277466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large, human-annotated datasets are central to the development of natural
language processing models. Collecting these datasets can be the most
challenging part of the development process. We address this problem by
introducing a general purpose technique for ``simulation-to-real'' transfer in
language understanding problems with a delimited set of target behaviors,
making it possible to develop models that can interpret natural utterances
without natural training data. We begin with a synthetic data generation
procedure, and train a model that can accurately interpret utterances produced
by the data generator. To generalize to natural utterances, we automatically
find projections of natural language utterances onto the support of the
synthetic language, using learned sentence embeddings to define a distance
metric. With only synthetic training data, our approach matches or outperforms
state-of-the-art models trained on natural language data in several domains.
These results suggest that simulation-to-real transfer is a practical framework
for developing NLP applications, and that improved models for transfer might
provide wide-ranging improvements in downstream tasks.
- Abstract(参考訳): 人間の注釈付き大規模データセットは、自然言語処理モデルの開発の中心である。
これらのデータセットの収集は、開発プロセスの最も難しい部分です。
本稿では,対象行動の限定セットを用いた言語理解問題において,「実環境へのシミュレーション」伝達のための汎用的手法を導入することで,自然発話を自然学習データなしで解釈可能なモデルの開発を可能にした。
まず、合成データ生成手順から始め、データ生成装置が生成した発話を正確に解釈できるモデルを訓練する。
自然発話を一般化するために, 学習文埋め込みを用いて, 合成言語のサポートに対する自然言語発話のプロジェクションを自動的に検出し, 距離メートル法を定義する。
人工的なトレーニングデータだけで、我々のアプローチはいくつかのドメインで自然言語データに基づいてトレーニングされた最先端のモデルと一致または性能を向上します。
これらの結果から,シミュレーション・トゥ・リアル・トランスファーはNLPアプリケーション開発のための実践的なフレームワークであり,トランスファーモデルの改善が下流タスクの幅広い改善をもたらす可能性が示唆された。
関連論文リスト
- ViANLI: Adversarial Natural Language Inference for Vietnamese [1.907126872483548]
敵NLIデータセットをNLP研究コミュニティに導入し,その名称をViANLIとした。
このデータセットには、10K以上の前提-仮説ペアが含まれている。
テストセットで最も強力なモデルの精度は48.4%にしか達しなかった。
論文 参考訳(メタデータ) (2024-06-25T16:58:19Z) - Controlled Randomness Improves the Performance of Transformer Models [4.678970068275123]
制御されたランダム性、すなわちノイズを訓練プロセスに導入し、微調整言語モデルを改善する。
このようなノイズを加えることで、結合したエンティティ認識と関係抽出とテキスト要約という2つの下流タスクのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-10-20T14:12:55Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Exploring Transitivity in Neural NLI Models through Veridicality [39.845425535943534]
推論関係の推移性に着目する。推論を体系的に描く基本的な性質である。
推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。
現在のNLIモデルは、推移性推論タスクで一貫してうまく機能しないことがわかります。
論文 参考訳(メタデータ) (2021-01-26T11:18:35Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Stochastic Natural Language Generation Using Dependency Information [0.7995360025953929]
本稿では,自然言語テキストを生成するコーパスベースモデルを提案する。
我々のモデルは、特徴集合を通じてトレーニングデータから依存関係を符号化し、与えられた意味表現のための新しい依存木を生成する。
本モデルでは, 品質だけでなく, 情報性, 自然性といった面においても, 高品質な発話を生成できることが示されている。
論文 参考訳(メタデータ) (2020-01-12T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。