論文の概要: Data Augmentation Method Utilizing Template Sentences for Variable Definition Extraction
- arxiv url: http://arxiv.org/abs/2405.14962v1
- Date: Thu, 23 May 2024 18:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.020416
- Title: Data Augmentation Method Utilizing Template Sentences for Variable Definition Extraction
- Title(参考訳): 可変定義抽出のためのテンプレート文を利用したデータ拡張手法
- Authors: Kotaro Nagayama, Shota Kato, Manabu Kano,
- Abstract要約: 本研究では,テンプレート文と変数定義ペアから新たな定義文を生成する手法を提案する。
その結果,提案手法が生成した定義文で訓練したモデルは89.6%の精度で既存モデルを上回った。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extraction of variable definitions from scientific and technical papers is essential for understanding these documents. However, the characteristics of variable definitions, such as the length and the words that make up the definition, differ among fields, which leads to differences in the performance of existing extraction methods across fields. Although preparing training data specific to each field can improve the performance of the methods, it is costly to create high-quality training data. To address this challenge, this study proposes a new method that generates new definition sentences from template sentences and variable-definition pairs in the training data. The proposed method has been tested on papers about chemical processes, and the results show that the model trained with the definition sentences generated by the proposed method achieved a higher accuracy of 89.6%, surpassing existing models.
- Abstract(参考訳): 科学的および技術的論文から変数定義を抽出することは、これらの文書を理解するのに不可欠である。
しかし、定義を構成する長さや単語などの変数定義の特徴はフィールドによって異なり、既存の抽出手法の性能の違いをもたらす。
各分野固有のトレーニングデータを作成することで、手法の性能を向上させることができるが、高品質なトレーニングデータを作成するにはコストがかかる。
そこで本研究では,テンプレート文と変数定義ペアから新たな定義文を生成する手法を提案する。
提案手法は, 化学プロセスに関する論文で検証され, 提案手法によって生成された定義文で訓練されたモデルが, 既存のモデルを上回る89.6%の精度で得られた。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Discovering Patterns of Definitions and Methods from Scientific
Documents [0.318429923111585]
本稿では,定義と方法のパターンを発見するための分析手法を提案する。
意味レベルでのパターンの完全性は、意味関係の完全なセットによって保証される。
自己構築データセットと2つの公開定義データセットの実験は、発見されたパターンが効果的であることを示している。
論文 参考訳(メタデータ) (2023-07-01T05:08:44Z) - An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels [55.06990011183662]
我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
論文 参考訳(メタデータ) (2022-03-21T21:51:43Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Variable Instance-Level Explainability for Text Classification [9.147707153504117]
本論文では,インスタンスレベルでの異なる特徴スコアリング手法を用いて変数長説明を抽出する手法を提案する。
本手法は,従来の固定長および固定長のスコアリング手法と比較して,より忠実な説明を提供する。
論文 参考訳(メタデータ) (2021-04-16T16:53:48Z) - VCDM: Leveraging Variational Bi-encoding and Deep Contextualized Word
Representations for Improved Definition Modeling [24.775371434410328]
定義モデリングの課題は、単語やフレーズの定義を学習することである。
このタスクの既存のアプローチは差別的であり、直接的ではなく暗黙的に分布的意味論と語彙的意味論を組み合わせたものである。
本稿では、文脈内で使われるフレーズとその定義の基盤となる関係を明示的にモデル化するために、連続潜時変数を導入したタスク生成モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T02:48:44Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。