Fugu-MT 論文翻訳(概要): Massively Multilingual Language Models for Cross Lingual Fact Extraction from Low Resource Indian Languages

論文の概要: Massively Multilingual Language Models for Cross Lingual Fact Extraction from Low Resource Indian Languages

arxiv url: http://arxiv.org/abs/2302.04790v1
Date: Thu, 9 Feb 2023 17:29:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 14:57:16.047883
Title: Massively Multilingual Language Models for Cross Lingual Fact Extraction from Low Resource Indian Languages
Title（参考訳）: 低資源インド語からの言語間ファクト抽出のための多言語多言語モデル
Authors: Bhavyajeet Singh, Pavan Kandru, Anubhav Sharma, Vasudeva Varma
Abstract要約: クロスリンガル情報抽出は、低資源のインド語テキストから英語のトリプルの形で事実情報を抽出することを目的としている。我々は,F1総合スコア77.46のエンドツーエンド生成アプローチを考案した。
参考スコア（独自算出の注目度）: 9.005666503814307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Massive knowledge graphs like Wikidata attempt to capture world knowledge about multiple entities. Recent approaches concentrate on automatically enriching these KGs from text. However a lot of information present in the form of natural text in low resource languages is often missed out. Cross Lingual Information Extraction aims at extracting factual information in the form of English triples from low resource Indian Language text. Despite its massive potential, progress made on this task is lagging when compared to Monolingual Information Extraction. In this paper, we propose the task of Cross Lingual Fact Extraction(CLFE) from text and devise an end-to-end generative approach for the same which achieves an overall F1 score of 77.46.
Abstract（参考訳）: Wikidataのような膨大な知識グラフは、複数のエンティティに関する世界の知識を捉えようとする。最近のアプローチは、テキストからこれらのKGを自動的に強化することに集中している。しかし、低リソース言語で自然言語として存在する多くの情報は欠落していることが多い。言語間情報抽出は、低資源インド語テキストから英語三重項の形で事実情報を抽出することを目的としている。巨大な可能性にもかかわらず、このタスクの進展は、単言語情報抽出と比べて遅延している。本稿では,テキストから言語間ファクト抽出(clfe)を行うタスクを提案し,77.46の総合f1スコアを達成するためのエンドツーエンド生成手法を提案する。

関連論文リスト

Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM [2.893226191913102]
本研究では、包括的なヒンディー語テキスト要約データセットを作成するための費用対効果の高い自動化フレームワークを提案する。英語 Extreme Summarization (XSUM) データセットを情報源として,高度な翻訳手法と言語適応手法を採用する。結果として得られたデータセットは、オリジナルのXSUMコーパスの複雑さを反映した多種多様なマルチテーマリソースを提供する。
論文参考訳（メタデータ） (2026-01-04T14:38:58Z)
Bridging Language Gaps: Enhancing Few-Shot Language Adaptation [32.157041759856]
言語資源の格差は、多言語NLPにおける課題となっている。高リソース言語は広範なデータから恩恵を受ける一方、低リソース言語は効果的なトレーニングに十分なデータを持っていない。我々のContrastive Language Alignment with Prompting (CoLAP) 法は、コントラスト学習と言語間表現を統合することで、このギャップに対処する。
論文参考訳（メタデータ） (2025-08-26T22:49:17Z)
A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文参考訳（メタデータ） (2024-09-02T12:53:01Z)
Cross-lingual Text Classification Transfer: The Case of Ukrainian [11.508759658889382]
ウクライナ語は、言語間の方法論の継続的な洗練の恩恵を受けることができる言語である。我々の知る限り、典型的なテキスト分類タスクにはウクライナのコーパスが欠如している。本研究では,NLPの最先端技術を活用し,言語間知識伝達手法を探索する。
論文参考訳（メタデータ） (2024-04-02T15:37:09Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Conversations in Galician: a Large Language Model for an Underrepresented Language [2.433983268807517]
本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。 52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。データセットユーティリティのデモとして、元々モデルでサポートされていない言語であるGalicianで、LLaMA-7Bの理解と応答を微調整した。
論文参考訳（メタデータ） (2023-11-07T08:52:28Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (2023-06-11T23:27:47Z)
Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文参考訳（メタデータ） (2022-10-24T21:33:42Z)
Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文参考訳（メタデータ） (2021-12-03T04:26:49Z)
Cross-lingual Offensive Language Identification for Low Resource Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文参考訳（メタデータ） (2021-09-08T11:29:44Z)
Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文参考訳（メタデータ） (2021-05-30T00:50:00Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。