論文の概要: Event Guided Denoising for Multilingual Relation Learning
- arxiv url: http://arxiv.org/abs/2012.02721v1
- Date: Fri, 4 Dec 2020 17:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 02:03:56.665802
- Title: Event Guided Denoising for Multilingual Relation Learning
- Title(参考訳): 多言語関係学習のためのイベントガイドによるDenoising
- Authors: Amith Ananthram, Emily Allaway, Kathleen McKeown
- Abstract要約: ラベルなしテキストから関係抽出のための高品質なトレーニングデータを収集する手法を提案する。
提案手法は,日誌に記載されたニュース記事の予測可能な分布構造を利用して,認知コーパスを構築する。
このコーパスで訓練されたより小さな多言語エンコーダが、現在の最先端技術と同等に動作することを示す。
- 参考スコア(独自算出の注目度): 2.4192504570921627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General purpose relation extraction has recently seen considerable gains in
part due to a massively data-intensive distant supervision technique from
Soares et al. (2019) that produces state-of-the-art results across many
benchmarks. In this work, we present a methodology for collecting high quality
training data for relation extraction from unlabeled text that achieves a
near-recreation of their zero-shot and few-shot results at a fraction of the
training cost. Our approach exploits the predictable distributional structure
of date-marked news articles to build a denoised corpus -- the extraction
process filters out low quality examples. We show that a smaller multilingual
encoder trained on this corpus performs comparably to the current
state-of-the-art (when both receive little to no fine-tuning) on few-shot and
standard relation benchmarks in English and Spanish despite using many fewer
examples (50k vs. 300mil+).
- Abstract(参考訳): 汎用的な関係抽出は、soaresらによる膨大なデータ集約的な遠隔監視技術によって、近年大きく向上している。
(2019)は多くのベンチマークで最先端の結果を生成する。
本研究では,ゼロショットと少数ショットのほぼ再現が可能なラベル付きテキストから関係抽出のための高品質なトレーニングデータを,トレーニングコストのごく一部で収集する手法を提案する。
提案手法は,日時標示されたニュース記事の予測可能な分布構造を生かして,低品質の事例を抽出し,分節化したコーパスを構築する。
このコーパスで訓練された小さな多言語エンコーダは、少ない例(50k vs. 300mil+)を使用しながら、英語とスペイン語の少数ショットおよび標準関係ベンチマークにおいて、現在の最先端(どちらも微調整を受けていない場合)と同等に動作することを示す。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Narrowing the Gap between Zero- and Few-shot Machine Translation by
Matching Styles [53.92189950211852]
大規模言語モデルは、文脈内学習を用いたゼロショットと少数ショットの例を用いて、機械翻訳に一般化する能力を示した。
本稿では,このギャップに寄与する要因について検討し,対象コーパスの書字スタイルを一致させることで,このギャップをほとんど(約70%)閉鎖できることを示す。
論文 参考訳(メタデータ) (2023-11-04T03:18:45Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Cross-lingual Approach to Abstractive Summarization [0.0]
言語間モデル転送は低リソース言語でうまく適用できる。
深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
論文 参考訳(メタデータ) (2020-12-08T09:30:38Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。