論文の概要: Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts
- arxiv url: http://arxiv.org/abs/2309.09877v1
- Date: Mon, 18 Sep 2023 15:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:43:32.300551
- Title: Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts
- Title(参考訳): ラベル付きデータがない?
just add semantics:オンライン健康テキストを推論するデータ効率のよい方法
- Authors: Joseph Gatto, Sarah M. Preum
- Abstract要約: 低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-generated texts available on the web and social platforms are often long
and semantically challenging, making them difficult to annotate. Obtaining
human annotation becomes increasingly difficult as problem domains become more
specialized. For example, many health NLP problems require domain experts to be
a part of the annotation pipeline. Thus, it is crucial that we develop
low-resource NLP solutions able to work with this set of limited-data problems.
In this study, we employ Abstract Meaning Representation (AMR) graphs as a
means to model low-resource Health NLP tasks sourced from various online health
resources and communities. AMRs are well suited to model online health texts as
they can represent multi-sentence inputs, abstract away from complex
terminology, and model long-distance relationships between co-referring tokens.
AMRs thus improve the ability of pre-trained language models to reason about
high-complexity texts. Our experiments show that we can improve performance on
6 low-resource health NLP tasks by augmenting text embeddings with semantic
graph embeddings. Our approach is task agnostic and easy to merge into any
standard text classification pipeline. We experimentally validate that AMRs are
useful in the modeling of complex texts by analyzing performance through the
lens of two textual complexity measures: the Flesch Kincaid Reading Level and
Syntactic Complexity. Our error analysis shows that AMR-infused language models
perform better on complex texts and generally show less predictive variance in
the presence of changing complexity.
- Abstract(参考訳): Webやソーシャルプラットフォームで利用できるユーザ生成テキストは、長く意味的に難しいことが多いため、注釈付けが難しい。
問題領域がより専門化するにつれて、人間のアノテーションの取得はますます困難になる。
例えば、多くの健康的NLP問題は、ドメインエキスパートをアノテーションパイプラインの一部にする必要があります。
したがって、この一連の限定データ問題に対処できる低リソースNLPソリューションを開発することが重要である。
本研究では,様々なオンライン医療資源やコミュニティから得られた低リソースのNLPタスクをモデル化する手段として,抽象的意味表現(AMR)グラフを用いた。
AMRは、多文入力を表現でき、複雑な用語から抽象化でき、トークン間の長距離関係をモデル化できるので、オンラインの健康テキストをモデル化するのに適しています。
したがってamrは、事前学習された言語モデルの高複雑さテキストを推論する能力を向上させる。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
我々のアプローチはタスクに依存しず、どんな標準テキスト分類パイプラインにも簡単に統合できます。
我々は、Flesch Kincaid Reading LevelとSyntactic Complexityという2つのテキスト複雑度測定のレンズを用いて、AMRが複雑なテキストのモデリングに有用であることを実験的に検証した。
我々の誤り解析は、AMRを注入した言語モデルが複雑なテキストでより良く機能し、複雑さの変化が存在する場合の予測上のばらつきが低いことを示している。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Modular Self-Supervision for Document-Level Relation Extraction [17.039775384229355]
本稿では,文書レベルの関係抽出を関係検出と議論解決に分解する手法を提案する。
バイオメディカル・マシン・リーダーの精度オンコロジーにおいて,クロスパラグラフ関係の言及が一般的である点を徹底的に評価する。
提案手法は,マルチスケール学習やグラフニューラルネットワークなど,従来の技術よりも20以上の絶対的なF1点を達成している。
論文 参考訳(メタデータ) (2021-09-11T20:09:18Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。