論文の概要: A BERT-based Dual Embedding Model for Chinese Idiom Prediction
- arxiv url: http://arxiv.org/abs/2011.02378v1
- Date: Wed, 4 Nov 2020 16:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:16:25.376551
- Title: A BERT-based Dual Embedding Model for Chinese Idiom Prediction
- Title(参考訳): 中国のイディオム予測のためのBERTに基づくデュアル埋め込みモデル
- Authors: Minghuan Tan and Jing Jiang
- Abstract要約: 中国語のイディオム予測タスクは、空白のある文脈で与えられた候補イディオムの集合から正しいイディオムを選択することである。
本稿では,単語の文脈を符号化し,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。
- 参考スコア(独自算出の注目度): 8.903106634925853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese idioms are special fixed phrases usually derived from ancient
stories, whose meanings are oftentimes highly idiomatic and non-compositional.
The Chinese idiom prediction task is to select the correct idiom from a set of
candidate idioms given a context with a blank. We propose a BERT-based dual
embedding model to encode the contextual words as well as to learn dual
embeddings of the idioms. Specifically, we first match the embedding of each
candidate idiom with the hidden representation corresponding to the blank in
the context. We then match the embedding of each candidate idiom with the
hidden representations of all the tokens in the context thorough context
pooling. We further propose to use two separate idiom embeddings for the two
kinds of matching. Experiments on a recently released Chinese idiom cloze test
dataset show that our proposed method performs better than the existing state
of the art. Ablation experiments also show that both context pooling and dual
embedding contribute to the improvement of performance.
- Abstract(参考訳): 中国語の慣用句は、通常古代の物語に由来する特別な固定句であり、その意味はしばしば高度に慣用的で非構成的である。
中国のイディオム予測タスクは、空白の文脈で与えられた一連の候補イディオムから正しいイディオムを選択することである。
本稿では,単語をエンコードし,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。
具体的には、まず、各候補イディオムの埋め込みとコンテキスト内の空白に対応する隠れ表現とを一致させる。
次に、各候補のイディオムの埋め込みと、コンテキスト境界コンテキストプール内のすべてのトークンの隠れた表現を一致させます。
さらに,2種類のマッチングに2つの別々のイディオム埋め込みを適用することを提案する。
最近リリースされた中国のイディオムクロゼテストデータセットの実験では、提案手法が既存の技術よりも優れた性能を示している。
アブレーション実験は、コンテキストプーリングと二重埋め込みの両方が性能改善に寄与することを示した。
関連論文リスト
- Semi-Supervised Learning for Bilingual Lexicon Induction [1.8130068086063336]
本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。
標準ベンチマークの実験では、英語から20言語以上の言語に辞書を推論し、我々のアプローチが既存の技術ベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-10T19:27:22Z) - That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - UAlberta at SemEval 2022 Task 2: Leveraging Glosses and Translations for
Multilingual Idiomaticity Detection [4.66831886752751]
本稿では,SemEval-2022タスク2における多言語的慣用性検出のためのアルバータ大学システムについて述べる。
慣用的表現が非合成的という仮定の下では,表現の個々の単語の意味に関する情報を二項分類器に統合する。
2つ目の方法は文脈で表現を翻訳し、語彙知識ベースを用いて翻訳がリテラルであるかどうかを判定する。
論文 参考訳(メタデータ) (2022-05-27T16:35:00Z) - Chinese Idiom Paraphrasing [33.585450600066395]
中国語の慣用句は、子供や非母語話者によって理解されがちである。
本研究では,中国語パラフレージング(CIP)と呼ばれる新しい課題を提案する。
CIPは、原文の意味を保存するという前提のもと、イディオム-文を非慣用句に言い換えることを目的としている。
論文 参考訳(メタデータ) (2022-04-15T17:24:25Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Synonym Knowledge Enhanced Reader for Chinese Idiom Reading
Comprehension [22.25730077173127]
機械読解(英: Machine reading comprehension、MRC)とは、機械が与えられた文脈に基づいて質問に答えるよう求めるタスクである。
まず,中国語の慣用句の意味的意味と意味的意味の整合性を測定するために,リテラルの意味包含という概念を定義した。
同義語関係を完全に活用するために、同義語知識強化読解器を提案する。
大規模な中国語イディオム読解データセットであるChIDの実験結果から,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-11-09T15:28:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。