論文の概要: Addressing Resource and Privacy Constraints in Semantic Parsing Through
Data Augmentation
- arxiv url: http://arxiv.org/abs/2205.08675v1
- Date: Wed, 18 May 2022 01:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:15:28.919900
- Title: Addressing Resource and Privacy Constraints in Semantic Parsing Through
Data Augmentation
- Title(参考訳): データ拡張による意味的パーシングにおけるリソースとプライバシ制約への対処
- Authors: Kevin Yang, Olivia Deng, Charles Chen, Richard Shin, Subhro Roy,
Benjamin Van Durme
- Abstract要約: 低リソースなタスク指向のセマンティック解析のための新しいセットアップを提案する。
私たちの目標は、ユーザインタラクションを通じて収集された発話を用いて、低リソースのセマンティック拡張を改善することです。
- 参考スコア(独自算出の注目度): 33.21612085142085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel setup for low-resource task-oriented semantic parsing
which incorporates several constraints that may arise in real-world scenarios:
(1) lack of similar datasets/models from a related domain, (2) inability to
sample useful logical forms directly from a grammar, and (3) privacy
requirements for unlabeled natural utterances. Our goal is to improve a
low-resource semantic parser using utterances collected through user
interactions. In this highly challenging but realistic setting, we investigate
data augmentation approaches involving generating a set of structured canonical
utterances corresponding to logical forms, before simulating corresponding
natural language and filtering the resulting pairs. We find that such
approaches are effective despite our restrictive setup: in a low-resource
setting on the complex SMCalFlow calendaring dataset (Andreas et al., 2020), we
observe 33% relative improvement over a non-data-augmented baseline in top-1
match.
- Abstract(参考訳): 本研究では,(1)類似したデータセットやモデルが関連ドメインから欠如していること,(2)文法から直接有用な論理形式をサンプリングできないこと,(3)未ラベルの自然発話のプライバシー要件など,現実のシナリオで生じる可能性のある制約を取り入れた,低リソースなタスク指向のセマンティック解析のための新しいセットアップを提案する。
私たちの目標は、ユーザインタラクションを通じて収集された発話を用いて、低リソースのセマンティックパーサを改善することです。
この高度に挑戦的だが現実的な設定では、論理形式に対応する一連の構造化標準発話を生成し、対応する自然言語をシミュレートし、結果のペアをフィルタリングするデータ拡張アプローチを検討する。
複雑なsmcalflowカレンダーデータセット(andreas et al., 2020)上の低リソース設定では、top-1マッチにおけるデータ提供されていないベースラインに対する33%の相対的な改善が観察されます。
関連論文リスト
- TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。