論文の概要: Massively Multilingual Language Models for Cross Lingual Fact Extraction
from Low Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2302.04790v1
- Date: Thu, 9 Feb 2023 17:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:57:16.047883
- Title: Massively Multilingual Language Models for Cross Lingual Fact Extraction
from Low Resource Indian Languages
- Title(参考訳): 低資源インド語からの言語間ファクト抽出のための多言語多言語モデル
- Authors: Bhavyajeet Singh, Pavan Kandru, Anubhav Sharma, Vasudeva Varma
- Abstract要約: クロスリンガル情報抽出は、低資源のインド語テキストから英語のトリプルの形で事実情報を抽出することを目的としている。
我々は,F1総合スコア77.46のエンドツーエンド生成アプローチを考案した。
- 参考スコア(独自算出の注目度): 9.005666503814307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive knowledge graphs like Wikidata attempt to capture world knowledge
about multiple entities. Recent approaches concentrate on automatically
enriching these KGs from text. However a lot of information present in the form
of natural text in low resource languages is often missed out. Cross Lingual
Information Extraction aims at extracting factual information in the form of
English triples from low resource Indian Language text. Despite its massive
potential, progress made on this task is lagging when compared to Monolingual
Information Extraction. In this paper, we propose the task of Cross Lingual
Fact Extraction(CLFE) from text and devise an end-to-end generative approach
for the same which achieves an overall F1 score of 77.46.
- Abstract(参考訳): Wikidataのような膨大な知識グラフは、複数のエンティティに関する世界の知識を捉えようとする。
最近のアプローチは、テキストからこれらのKGを自動的に強化することに集中している。
しかし、低リソース言語で自然言語として存在する多くの情報は欠落していることが多い。
言語間情報抽出は、低資源インド語テキストから英語三重項の形で事実情報を抽出することを目的としている。
巨大な可能性にもかかわらず、このタスクの進展は、単言語情報抽出と比べて遅延している。
本稿では,テキストから言語間ファクト抽出(clfe)を行うタスクを提案し,77.46の総合f1スコアを達成するためのエンドツーエンド生成手法を提案する。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Conversations in Galician: a Large Language Model for an
Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。
52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。
データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文 参考訳(メタデータ) (2023-11-07T08:52:28Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。
一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。
一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-03T04:26:49Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。