論文の概要: Contextual Label Projection for Cross-Lingual Structure Extraction
- arxiv url: http://arxiv.org/abs/2309.08943v1
- Date: Sat, 16 Sep 2023 10:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:22:48.199206
- Title: Contextual Label Projection for Cross-Lingual Structure Extraction
- Title(参考訳): 言語間構造抽出のための文脈ラベル投影
- Authors: Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng
- Abstract要約: CLAPを導入し、まずテキストを対象言語に翻訳し、翻訳したテキストを文脈としてラベルに文脈翻訳を行う。
その結果,中国語とアラビア語のACE05データセットの他の手法に比べてCLAPは2-2.5F1スコア向上した。
- 参考スコア(独自算出の注目度): 111.10392133430452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating training data into target languages has proven beneficial for
cross-lingual transfer. However, for structure extraction tasks, translating
data requires a label projection step, which translates input text and obtains
translated labels in the translated text jointly. Previous research in label
projection mostly compromises translation quality by either facilitating easy
identification of translated labels from translated text or using word-level
alignment between translation pairs to assemble translated phrase-level labels
from the aligned words. In this paper, we introduce CLAP, which first
translates text to the target language and performs contextual translation on
the labels using the translated text as the context, ensuring better accuracy
for the translated labels. We leverage instruction-tuned language models with
multilingual capabilities as our contextual translator, imposing the constraint
of the presence of translated labels in the translated text via instructions.
We compare CLAP with other label projection techniques for creating
pseudo-training data in target languages on event argument extraction, a
representative structure extraction task. Results show that CLAP improves by
2-2.5 F1-score over other methods on the Chinese and Arabic ACE05 datasets.
- Abstract(参考訳): トレーニングデータをターゲット言語に翻訳することは、言語間転送に有益であることが証明されている。
しかし、構造抽出タスクでは、データ変換には、入力テキストを翻訳し、翻訳テキスト中の翻訳ラベルを共同で取得するラベル投影ステップが必要となる。
ラベルプロジェクションのこれまでの研究は、翻訳テキストからの翻訳ラベルの識別を容易にするか、翻訳ペア間の単語レベルのアライメントを使用して翻訳単語から翻訳フレーズレベルのラベルを変換することで、翻訳品質を損なうことが多かった。
本稿では,まずテキストを対象言語に翻訳し,翻訳文を文脈として使用するラベル上で文脈翻訳を行い,翻訳されたラベルの精度を向上させるclapを紹介する。
コンテクストトランスレータとして多言語機能を持つ命令調整言語モデルを活用し,翻訳されたテキストに翻訳されたラベルが存在することの制約を付与する。
我々はCLAPと他のラベルプロジェクション技術を比較し、イベント引数抽出において対象言語で擬似学習データを生成する。
その結果,中国およびアラビア語のace05データセットの他の手法よりも2-2.5 f1-scoreが改善された。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Frustratingly Easy Label Projection for Cross-lingual Transfer [25.398772204761215]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-28T18:11:48Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。