論文の概要: Constructing Cross-lingual Consumer Health Vocabulary with
Word-Embedding from Comparable User Generated Content
- arxiv url: http://arxiv.org/abs/2206.11612v1
- Date: Thu, 23 Jun 2022 10:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 19:22:22.288386
- Title: Constructing Cross-lingual Consumer Health Vocabulary with
Word-Embedding from Comparable User Generated Content
- Title(参考訳): 比較可能なユーザ生成コンテンツからの単語埋め込みによる言語間消費者健康語彙の構築
- Authors: Chia-Hsuan Chang, Lei Wang, Christopher C. Yang
- Abstract要約: 本研究の目的は、英語OAC CHVを言語横断言語に拡張するための言語間自動用語認識フレームワークを提案することである。
2つの単言語単語ベクトル空間をスキップグラムアルゴリズムを用いて決定し、各空間が言語内の在来人からの共通単語関連を符号化する。
アイソメトリの仮定に基づいて、2つの単言語空間をバイリンガルワードベクトル空間に整列し、コサイン類似性を言語間で意味論的に類似した単語を識別するための計量として用いる。
- 参考スコア(独自算出の注目度): 3.7539743709737974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The online health community (OHC) is the primary channel for laypeople to
share health information. To analyze the health consumer-generated content
(HCGC) from the OHCs, identifying the colloquial medical expressions used by
laypeople is a critical challenge. The open-access and collaborative consumer
health vocabulary (OAC CHV) is the controlled vocabulary for addressing such a
challenge. Nevertheless, OAC CHV is only available in English, limiting the
applicability to other languages. This research aims to propose a cross-lingual
automatic term recognition framework for extending the English OAC CHV into a
cross-lingual one. Our framework requires an English HCGC corpus and a
non-English (i.e., Chinese in this study) HCGC corpus as inputs. Two
monolingual word vector spaces are determined using skip-gram algorithm so that
each space encodes common word associations from laypeople within a language.
Based on isometry assumption, the framework align two monolingual spaces into a
bilingual word vector space, where we employ cosine similarity as a metric for
identifying semantically similar words across languages. In the experiments,
our framework demonstrates that it can effectively retrieve similar medical
terms, including colloquial expressions, across languages and further
facilitate compilation of cross-lingual CHV.
- Abstract(参考訳): オンライン健康コミュニティ(OHC)は、平民が健康情報を共有するための主要なチャンネルである。
OHCsから健康消費者生成コンテンツ(HCGC)を解析するためには、一般人が使用する口語医療表現を特定することが重要な課題である。
open-access and collaborative consumer health vocabulary (oac chv)はそのような課題に対処するための制御された語彙である。
それでも、OAC CHVは英語でのみ利用可能であり、他の言語にも適用可能である。
本研究では,英語のoac chvを言語横断言語に拡張するための言語間自動認識フレームワークを提案する。
本研究の枠組みは,英語HCGCコーパスと非英語HCGCコーパス(中国語)を入力として必要とする。
2つの単言語単語ベクトル空間をスキップグラムアルゴリズムを用いて決定し、各空間が言語内の在来人からの共通単語関連を符号化する。
アイソメトリの仮定に基づいて、2つの単言語空間をバイリンガルワードベクトル空間に整列し、コサイン類似性を言語間で意味論的に類似した単語を識別するための計量として用いる。
実験では,言語間の共通表現を含む類似の医療用語を効果的に検索し,さらに言語間CHVのコンパイルを容易にすることを実証した。
関連論文リスト
- Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - Evolution of Efficient Symbolic Communication Codes [0.0]
本稿では,人間の自然言語構造を対人コミュニケーションコードの進化の産物とみなす方法について考察する。
これは、アンチエントロピー、圧縮係数、クロススプリットF1スコアといった、文化に依存しない、言語間のメトリクスを最大化することを目的としている。
論文 参考訳(メタデータ) (2023-06-04T15:33:16Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Detecting Cross-Language Plagiarism using Open Knowledge Graphs [7.378348990383349]
本稿では,多言語検索モデルであるクロスランゲージオントロジーに基づく類似性分析を提案する。
CL-OSAは、オープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。
ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。
論文 参考訳(メタデータ) (2021-11-18T15:23:27Z) - Monolingual and Cross-Lingual Acceptability Judgments with the Italian
CoLA corpus [2.418273287232718]
ItaCoLAコーパスは,受理性判定を伴う約1万文を含む。
また、多言語トランスフォーマーに基づくアプローチが、微調整中に2つの言語で文を使うことのメリットを評価できるかを評価することを目的とした、最初の言語間実験も提示する。
論文 参考訳(メタデータ) (2021-09-24T16:18:53Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。