論文の概要: Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph
- arxiv url: http://arxiv.org/abs/2109.04400v2
- Date: Fri, 10 Sep 2021 03:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:51:09.678217
- Title: Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph
- Title(参考訳): 辞書に基づくヘテロジニアスグラフを用いたテキスト分類のための言語間変換
- Authors: Nuttapong Chairatanakul, Noppayut Sriwatanasakdi, Nontawat
Charoenphakdee, Xin Liu, Tsuyoshi Murata
- Abstract要約: 言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
- 参考スコア(独自算出の注目度): 10.64488240379972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cross-lingual text classification, it is required that task-specific
training data in high-resource source languages are available, where the task
is identical to that of a low-resource target language. However, collecting
such training data can be infeasible because of the labeling cost, task
characteristics, and privacy concerns. This paper proposes an alternative
solution that uses only task-independent word embeddings of high-resource
languages and bilingual dictionaries. First, we construct a dictionary-based
heterogeneous graph (DHG) from bilingual dictionaries. This opens the
possibility to use graph neural networks for cross-lingual transfer. The
remaining challenge is the heterogeneity of DHG because multiple languages are
considered. To address this challenge, we propose dictionary-based
heterogeneous graph neural network (DHGNet) that effectively handles the
heterogeneity of DHG by two-step aggregations, which are word-level and
language-level aggregations. Experimental results demonstrate that our method
outperforms pretrained models even though it does not access to large corpora.
Furthermore, it can perform well even though dictionaries contain many
incorrect translations. Its robustness allows the usage of a wider range of
dictionaries such as an automatically constructed dictionary and crowdsourced
dictionary, which are convenient for real-world applications.
- Abstract(参考訳): クロスリンガルテキスト分類では、高リソースのソース言語におけるタスク固有のトレーニングデータが利用可能であり、タスクは低リソースのターゲット言語と同じである。
しかし、ラベル付けコスト、タスク特性、プライバシー上の懸念から、そのようなトレーニングデータの収集は不可能である。
本稿では,高リソース言語とバイリンガル辞書のタスクに依存しない単語埋め込みのみを用いた代替ソリューションを提案する。
まず、二言語辞書から辞書に基づくヘテロジニアスグラフ(DHG)を構築する。
これにより、言語間転送にグラフニューラルネットワークを使用する可能性が開ける。
残る課題は、複数の言語が考慮されているため、DHGの不均一性である。
この課題に対処するために、単語レベルと言語レベルの集約である2段階の集約によってDHGの不均一性を効果的に処理する辞書ベースのヘテロジニアスグラフニューラルネットワーク(DHGNet)を提案する。
実験の結果,本手法は大型コーパスにアクセスできなくても,事前学習モデルよりも優れていた。
さらに、辞書には不正確な翻訳が多数含まれていてもうまく機能する。
その堅牢性によって、自動化された辞書やクラウドソースされた辞書など、より広い範囲の辞書の使用が可能になる。
関連論文リスト
- Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Personalized Dictionary Learning for Heterogeneous Datasets [6.8438089867929905]
パーソナライズド辞書学習(PerDL)という問題を紹介した。
目的は、共通点を共有する異種データセットから疎線型表現を学ぶことである。
PerDLでは、各データセットの共有およびユニークな機能をグローバルおよびローカル辞書としてモデル化します。
論文 参考訳(メタデータ) (2023-05-24T16:31:30Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Classification of Chinese Handwritten Numbers with Labeled Projective
Dictionary Pair Learning [1.8594711725515674]
我々は,識別可能性,空間性,分類誤差の3つの要因を取り入れたクラス固有辞書を設計する。
我々は、辞書原子を生成するために、新しい特徴空間、すなわち、向き付け勾配(HOG)のヒストグラムを採用する。
その結果,最先端のディープラーニング技術と比較して,分類性能が向上した(sim98%)。
論文 参考訳(メタデータ) (2020-03-26T01:43:59Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。