論文の概要: SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts
- arxiv url: http://arxiv.org/abs/2110.01295v1
- Date: Mon, 4 Oct 2021 10:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 21:39:28.717932
- Title: SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts
- Title(参考訳): spar.txt - 規制テキストに対する安価で浅いパースアプローチ
- Authors: Ruben Kruiper, Ioannis Konstas, Alasdair Gray, Farhad Sadeghineko,
Richard Watson and Bimal Kumar
- Abstract要約: 本研究では,学習データが比較的安価に作成できる浅層解析タスクを提案する。
手動による評価により, 建築規制文書の集合において, 定義項の89,84%が定義されていることがわかった。
- 参考スコア(独自算出の注目度): 6.656036869700669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Compliance Checking (ACC) systems aim to semantically parse
building regulations to a set of rules. However, semantic parsing is known to
be hard and requires large amounts of training data. The complexity of creating
such training data has led to research that focuses on small sub-tasks, such as
shallow parsing or the extraction of a limited subset of rules. This study
introduces a shallow parsing task for which training data is relatively cheap
to create, with the aim of learning a lexicon for ACC. We annotate a small
domain-specific dataset of 200 sentences, SPaR.txt, and train a sequence tagger
that achieves 79,93 F1-score on the test set. We then show through manual
evaluation that the model identifies most (89,84%) defined terms in a set of
building regulation documents, and that both contiguous and discontiguous
Multi-Word Expressions (MWE) are discovered with reasonable accuracy (70,3%).
- Abstract(参考訳): ACC (Automated Compliance Checking) システムは、一連のルールに規則を意味的に解析することを目的としている。
しかし、意味解析は困難であることが知られ、大量のトレーニングデータを必要とする。
このようなトレーニングデータの作成の複雑さは、浅いパースや限定されたルールのサブセットの抽出など、小さなサブタスクに焦点を当てた研究につながった。
本研究では,ACCの辞書を学習するために,比較的安価に学習データを作成できる浅層解析タスクを提案する。
私たちは200文の小さなドメイン固有データセットspar.txtをアノテーションし、テストセットで79,93 f1-scoreを達成するシーケンスタガーをトレーニングします。
次に,本モデルが構築規則文書の集合において最も定義された用語 (89,84%) を識別し,連続的かつ不連続な多語表現 (MWE) が妥当な精度 (70,3%) で発見されることを示す。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Sequence-to-sequence models in peer-to-peer learning: A practical application [0.0]
本稿では,ピアツーピア学習環境における音声認識(ASR)タスクのLSTM単位に基づくシーケンス・ツー・シーケンス(Seq2Seq)モデルの適用性について検討する。
この結果は、分散環境でのSeq2Seqモデルの適用の可能性を示している。
論文 参考訳(メタデータ) (2024-05-02T14:44:06Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
論文 参考訳(メタデータ) (2022-12-19T18:57:05Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - Multitasking Framework for Unsupervised Simple Definition Generation [5.2221935174520056]
本稿では,言語学習者や低リテラシー学習者を支援するための,シンプル定義生成の課題を提案する。
この課題の重要な課題は、多くの言語における学習者の辞書の欠如である。
複雑な定義を持つ標準辞書と任意の単純なテキストを含むコーパスのみを必要とするマルチタスクフレームワークSimpDefinerを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:16:04Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。