論文の概要: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- arxiv url: http://arxiv.org/abs/2212.10548v1
- Date: Tue, 20 Dec 2022 18:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:05:48.003916
- Title: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- Title(参考訳): T-Projection:シーケンスラベリングタスクのための高品質アノテーションプロジェクション
- Authors: Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau
- Abstract要約: T-Projectionは、大規模な事前訓練されたテキスト2テキスト言語モデルと最先端機械翻訳技術を活用する、アノテーションプロジェクションのための新しいアプローチである。
以上の結果から, 従来手法の平均F1スコアは8ポイント以上向上した。
- 参考スコア(独自算出の注目度): 10.871587311621974
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the absence of readily available labeled data for a given task and
language, annotation projection has been proposed as one of the possible
strategies to automatically generate annotated data which may then be used to
train supervised systems. Annotation projection has often been formulated as
the task of projecting, on parallel corpora, some labels from a source into a
target language. In this paper we present T-Projection, a new approach for
annotation projection that leverages large pretrained text2text language models
and state-of-the-art machine translation technology. T-Projection decomposes
the label projection task into two subtasks: (i) The candidate generation step,
in which a set of projection candidates using a multilingual T5 model is
generated and, (ii) the candidate selection step, in which the candidates are
ranked based on translation probabilities. We evaluate our method in three
downstream tasks and five different languages. Our results show that
T-projection improves the average F1 score of previous methods by more than 8
points.
- Abstract(参考訳): 与えられたタスクや言語のためのラベル付きデータがない場合、アノテーションプロジェクションは、教師付きシステムのトレーニングに使用できる注釈付きデータを自動的に生成する可能性のある戦略の1つとして提案されている。
アノテーションの投影はしばしば、ソースからターゲット言語へのラベルを並列コーパスで投影するタスクとして定式化されている。
本稿では,大規模な事前学習されたテキスト2テキスト言語モデルと最先端機械翻訳技術を活用したアノテーション投影手法T-Projectionを提案する。
T-プロジェクションはラベルプロジェクションタスクを2つのサブタスクに分解する。
(i)多言語t5モデルを用いた投影候補の集合を生成した候補生成ステップ
二 候補選択の段階であって、その候補が翻訳確率に基づいてランク付けされるもの
提案手法を3つの下流タスクと5つの異なる言語で評価する。
その結果,t-プロジェクションは従来手法の平均f1得点を8点以上向上させた。
関連論文リスト
- Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - Contextual Label Projection for Cross-Lingual Structure Extraction [111.10392133430452]
CLAPを導入し、まずテキストを対象言語に翻訳し、翻訳したテキストを文脈としてラベルに文脈翻訳を行う。
その結果,中国語とアラビア語のACE05データセットの他の手法に比べてCLAPは2-2.5F1スコア向上した。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced
Annotators [64.04060110775062]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
LLMをより良いアノテータにするために、我々は2段階のアプローチ「説明-then-annotate」を提案する。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Frustratingly Easy Label Projection for Cross-lingual Transfer [27.136989137530122]
いくつかの試みでは、簡単なマーク-then-translate法を用いて、共同で翻訳と投影を行っている。
両手法の有効性と限界を評価するために,57言語および3つのタスク(QA,NER,イベント抽出)にまたがる実証的研究を行った。
EasyProjectと呼ばれる最適化された Mark-then-translate は、多くの言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アライメントベースの手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-28T18:11:48Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。