論文の概要: Synonym Knowledge Enhanced Reader for Chinese Idiom Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2011.04499v1
- Date: Mon, 9 Nov 2020 15:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:10:17.428029
- Title: Synonym Knowledge Enhanced Reader for Chinese Idiom Reading
Comprehension
- Title(参考訳): 中国語イディオム読解のための同義語知識強化読解器
- Authors: Siyu Long and Ran Wang and Kun Tao and Jiali Zeng and Xin-Yu Dai
- Abstract要約: 機械読解(英: Machine reading comprehension、MRC)とは、機械が与えられた文脈に基づいて質問に答えるよう求めるタスクである。
まず,中国語の慣用句の意味的意味と意味的意味の整合性を測定するために,リテラルの意味包含という概念を定義した。
同義語関係を完全に活用するために、同義語知識強化読解器を提案する。
大規模な中国語イディオム読解データセットであるChIDの実験結果から,我々のモデルが最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 22.25730077173127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine reading comprehension (MRC) is the task that asks a machine to answer
questions based on a given context. For Chinese MRC, due to the non-literal and
non-compositional semantic characteristics, Chinese idioms pose unique
challenges for machines to understand. Previous studies tend to treat idioms
separately without fully exploiting the relationship among them. In this paper,
we first define the concept of literal meaning coverage to measure the
consistency between semantics and literal meanings for Chinese idioms. With the
definition, we prove that the literal meanings of many idioms are far from
their semantics, and we also verify that the synonymic relationship can
mitigate this inconsistency, which would be beneficial for idiom comprehension.
Furthermore, to fully utilize the synonymic relationship, we propose the
synonym knowledge enhanced reader. Specifically, for each idiom, we first
construct a synonym graph according to the annotations from a high-quality
synonym dictionary or the cosine similarity between the pre-trained idiom
embeddings and then incorporate the graph attention network and gate mechanism
to encode the graph. Experimental results on ChID, a large-scale Chinese idiom
reading comprehension dataset, show that our model achieves state-of-the-art
performance.
- Abstract(参考訳): 機械読解(英語: machine reading comprehension、mrc)は、与えられた文脈に基づいてマシンに質問するタスクである。
中国語のmrcでは、非言語的・非言語的意味的特徴のため、中国語のイディオムは機械に特有の課題をもたらす。
以前の研究では、イディオムを別々に扱う傾向があり、両者の関係を十分に活用していない。
本稿では,まず,中国語のイディオムにおける意味論と意味論の一貫性を測定するために,リテラル意味のカバレッジの概念を定義した。
この定義により、多くのイディオムのリテラル意味がそれらの意味論に遠く及ばないことを証明するとともに、同義関係がこの矛盾を緩和し、イディオム理解に有益であることを示す。
さらに,同義語関係を完全に活用するために,同義語知識強化読者を提案する。
具体的には、各イディオムに対して、まず、高品質な同義語辞書のアノテーションや、事前訓練されたイディオム埋め込みのコサイン類似性に基づいて同義語グラフを構築し、グラフ注意ネットワークとゲート機構を組み込んでグラフを符号化する。
大規模な中国語イディオム読解データセットであるChIDの実験結果から,我々のモデルが最先端の性能を達成することを示す。
関連論文リスト
- That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - Chinese Idiom Paraphrasing [33.585450600066395]
中国語の慣用句は、子供や非母語話者によって理解されがちである。
本研究では,中国語パラフレージング(CIP)と呼ばれる新しい課題を提案する。
CIPは、原文の意味を保存するという前提のもと、イディオム-文を非慣用句に言い換えることを目的としている。
論文 参考訳(メタデータ) (2022-04-15T17:24:25Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - Do Context-Aware Translation Models Pay the Right Attention? [61.25804242929533]
コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
論文 参考訳(メタデータ) (2021-05-14T17:32:24Z) - A BERT-based Dual Embedding Model for Chinese Idiom Prediction [8.903106634925853]
中国語のイディオム予測タスクは、空白のある文脈で与えられた候補イディオムの集合から正しいイディオムを選択することである。
本稿では,単語の文脈を符号化し,イディオムの二重埋め込みを学習するためのBERTベースの二重埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T16:12:39Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。