論文の概要: Self-Supervised Knowledge Assimilation for Expert-Layman Text Style
Transfer
- arxiv url: http://arxiv.org/abs/2110.02950v1
- Date: Wed, 6 Oct 2021 17:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:35:38.109903
- Title: Self-Supervised Knowledge Assimilation for Expert-Layman Text Style
Transfer
- Title(参考訳): エキスパート・レイマンテキストスタイル転送のための自己教師付き知識同化
- Authors: Wenda Xu, Michael Saxon, Misha Sra, William Yang Wang
- Abstract要約: エキスパート・レイマン・テキスト・スタイル・トランスファー技術は、科学コミュニティと一般大衆とのコミュニケーションを改善する可能性がある。
専門家が生み出す高品質な情報は、しばしば難しいジャーゴンの平民が理解するのに苦労している。
これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。
- 参考スコア(独自算出の注目度): 63.72621204057025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expert-layman text style transfer technologies have the potential to improve
communication between members of scientific communities and the general public.
High-quality information produced by experts is often filled with difficult
jargon laypeople struggle to understand. This is a particularly notable issue
in the medical domain, where layman are often confused by medical text online.
At present, two bottlenecks interfere with the goal of building high-quality
medical expert-layman style transfer systems: a dearth of pretrained
medical-domain language models spanning both expert and layman terminologies
and a lack of parallel corpora for training the transfer task itself. To
mitigate the first issue, we propose a novel language model (LM) pretraining
task, Knowledge Base Assimilation, to synthesize pretraining data from the
edges of a graph of expert- and layman-style medical terminology terms into an
LM during self-supervised learning. To mitigate the second issue, we build a
large-scale parallel corpus in the medical expert-layman domain using a
margin-based criterion. Our experiments show that transformer-based models
pretrained on knowledge base assimilation and other well-established
pretraining tasks fine-tuning on our new parallel corpus leads to considerable
improvement against expert-layman transfer benchmarks, gaining an average
relative improvement of our human evaluation, the Overall Success Rate (OSR),
by 106%.
- Abstract(参考訳): エキスパートラマンテキストスタイル転送技術は、科学コミュニティのメンバーと一般大衆とのコミュニケーションを改善する可能性がある。
専門家が生み出す高品質な情報は、しばしば難解なジャーゴンの在職者が理解に苦しむ。
これは医療分野において特に顕著な問題であり、レイマンはしばしばオンラインの医療テキストに混同される。
現在、2つのボトルネックが、高品質な医療専門家-レーマンスタイルのトランスファーシステムを構築するという目標に妨げられている: 専門家とレイマンの用語にまたがる事前訓練済みの医療ドメイン言語モデルと、トランスファータスク自体をトレーニングするための並列コーパスの欠如である。
第1の課題を軽減すべく,知識ベース同化という新しい言語モデル(lm)を考案し,自己教師付き学習中に,専門家・在職者型の医療用語のグラフの縁から事前学習データをlmに合成する。
第2の課題を緩和するために,マージンに基づく基準を用いて医用エキスパート・レイマン領域に大規模並列コーパスを構築する。
実験の結果,トランスフォーマーをベースとしたモデルが知識ベース同化やその他の並列コーパスを微調整することで,専門家・レイマン移動ベンチマークに対する大幅な改善が得られ,人間評価の相対的改善である総合成功率(OSR)が106%向上した。
関連論文リスト
- ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。
フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。
この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Summarizing Patients Problems from Hospital Progress Notes Using
Pre-trained Sequence-to-Sequence Models [9.879960506853145]
問題リストの要約には、臨床文書を理解し、抽象化し、生成するモデルが必要である。
当科では,入院時に提供者の進捗記録からの入力を用いて,患者の日常診療計画における問題点のリストを作成することを目的とした,新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2022-08-17T17:07:35Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge
of Pre-trained Language Models [16.535312449449165]
我々は,Unified Medical Language System (UMLS) Metathesaurus に基づくバイオメディカル知識探索ベンチマーク MedLAMA をリリースする。
我々は、最先端のPLMの幅広いスペクトルをテストし、ベンチマークのアプローチを検証し、acc@10の3%に到達した。
提案するContrastive-Probeは,新しい自己監督型コントラスト型探索手法で,探索データを用いずに基礎となるPLMを調整する。
論文 参考訳(メタデータ) (2021-10-15T16:00:11Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Automated Lay Language Summarization of Biomedical Scientific Reviews [16.01452242066412]
健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。
医療用語とこのドメインの専門言語の複雑な構造は、健康情報を解釈するのが特に困難にします。
本稿では,生物医学的レビューの要約を自動生成する新しい課題について紹介する。
論文 参考訳(メタデータ) (2020-12-23T10:01:18Z) - Expertise Style Transfer: A New Task Towards Better Communication
between Experts and Laymen [88.30492014778943]
そこで我々は,手動で注釈付きデータセットを手動で提供し,専門的なスタイルの転送を行う新しいタスクを提案する。
このタスクの解決は、プロの言語を単純化するだけでなく、レイメンの記述の正確さと専門性の向上にも寄与する。
スタイル転送とテキスト単純化のための5つの最先端モデルのベンチマーク性能を確立する。
論文 参考訳(メタデータ) (2020-05-02T04:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。