論文の概要: Contextual Label Projection for Cross-Lingual Structure Extraction
- arxiv url: http://arxiv.org/abs/2309.08943v1
- Date: Sat, 16 Sep 2023 10:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:22:48.199206
- Title: Contextual Label Projection for Cross-Lingual Structure Extraction
- Title(参考訳): 言語間構造抽出のための文脈ラベル投影
- Authors: Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng
- Abstract要約: CLAPを導入し、まずテキストを対象言語に翻訳し、翻訳したテキストを文脈としてラベルに文脈翻訳を行う。
その結果,中国語とアラビア語のACE05データセットの他の手法に比べてCLAPは2-2.5F1スコア向上した。
- 参考スコア(独自算出の注目度): 111.10392133430452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating training data into target languages has proven beneficial for
cross-lingual transfer. However, for structure extraction tasks, translating
data requires a label projection step, which translates input text and obtains
translated labels in the translated text jointly. Previous research in label
projection mostly compromises translation quality by either facilitating easy
identification of translated labels from translated text or using word-level
alignment between translation pairs to assemble translated phrase-level labels
from the aligned words. In this paper, we introduce CLAP, which first
translates text to the target language and performs contextual translation on
the labels using the translated text as the context, ensuring better accuracy
for the translated labels. We leverage instruction-tuned language models with
multilingual capabilities as our contextual translator, imposing the constraint
of the presence of translated labels in the translated text via instructions.
We compare CLAP with other label projection techniques for creating
pseudo-training data in target languages on event argument extraction, a
representative structure extraction task. Results show that CLAP improves by
2-2.5 F1-score over other methods on the Chinese and Arabic ACE05 datasets.
- Abstract(参考訳): トレーニングデータをターゲット言語に翻訳することは、言語間転送に有益であることが証明されている。
しかし、構造抽出タスクでは、データ変換には、入力テキストを翻訳し、翻訳テキスト中の翻訳ラベルを共同で取得するラベル投影ステップが必要となる。
ラベルプロジェクションのこれまでの研究は、翻訳テキストからの翻訳ラベルの識別を容易にするか、翻訳ペア間の単語レベルのアライメントを使用して翻訳単語から翻訳フレーズレベルのラベルを変換することで、翻訳品質を損なうことが多かった。
本稿では,まずテキストを対象言語に翻訳し,翻訳文を文脈として使用するラベル上で文脈翻訳を行い,翻訳されたラベルの精度を向上させるclapを紹介する。
コンテクストトランスレータとして多言語機能を持つ命令調整言語モデルを活用し,翻訳されたテキストに翻訳されたラベルが存在することの制約を付与する。
我々はCLAPと他のラベルプロジェクション技術を比較し、イベント引数抽出において対象言語で擬似学習データを生成する。
その結果,中国およびアラビア語のace05データセットの他の手法よりも2-2.5 f1-scoreが改善された。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Frustratingly Easy Label Projection for Cross-lingual Transfer [27.136989137530122]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-28T18:11:48Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。