論文の概要: Creating and Managing a large annotated parallel corpora of Indian
languages
- arxiv url: http://arxiv.org/abs/2112.01764v1
- Date: Fri, 3 Dec 2021 07:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:21:08.701962
- Title: Creating and Managing a large annotated parallel corpora of Indian
languages
- Title(参考訳): インド語の大きな注釈付き並列コーパスの作成と管理
- Authors: Ritesh Kumar, Shiv Bhusan Kaushik, Pinkey Nainwani, Girish Nath Jha
- Abstract要約: 本稿では,12の主要言語からなる大規模並列コーパスの作成と管理の課題について述べる。
Webベースの(スタンドアローンバージョンも削減された)アノテーションツールILCIANNが開発されている。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the challenges in creating and managing large parallel
corpora of 12 major Indian languages (which is soon to be extended to 23
languages) as part of a major consortium project funded by the Department of
Information Technology (DIT), Govt. of India, and running parallel in 10
different universities of India. In order to efficiently manage the process of
creation and dissemination of these huge corpora, the web-based (with a reduced
stand-alone version also) annotation tool ILCIANN (Indian Languages Corpora
Initiative Annotation Tool) has been developed. It was primarily developed for
the POS annotation as well as the management of the corpus annotation by people
with differing amount of competence and at locations physically situated far
apart. In order to maintain consistency and standards in the creation of the
corpora, it was necessary that everyone works on a common platform which was
provided by this tool.
- Abstract(参考訳): 本稿では,DIT (Department of Information Technology, Govt) が出資する主要なコンソーシアムプロジェクトの一環として,12大インド語(間もなく23言語に拡張される予定)の大規模並列コーパスの作成と管理の課題について述べる。
インドでは10の大学で平行して走っています。
これらの巨大なコーパスの作成と普及のプロセスを効率的に管理するために、webベースのアノテーションツールilciann(indian languages corpora initiative annotation tool)が開発されている。
posアノテーションと、能力の異なる人々や物理的に離れた場所によるコーパスアノテーションの管理のために開発された。
コーパスの作成において、一貫性と標準を維持するためには、このツールによって提供される共通のプラットフォームで誰もが作業する必要がある。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - First Attempt at Building Parallel Corpora for Machine Translation of
Northeast India's Very Low-Resource Languages [7.124736158080938]
本稿では,インド北東部から13の低資源言語を対象としたバイリンガルコーパスの作成について述べる。
これらの言語に対して、最初のベンチマークニューラルネットワーク翻訳結果を提供する。
私たちはこれらのコーパスを、多数の低リソースのインド言語を含むように拡張するつもりです。
論文 参考訳(メタデータ) (2023-12-08T00:28:41Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - Revisiting Low Resource Status of Indian Languages in Machine
Translation [43.62422999765863]
インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。
我々は、インド言語ニューラルマシン翻訳(NMT)システムのためのこのようなコーパスを得るために、自動化されたフレームワークを提供し、分析する。
論文 参考訳(メタデータ) (2020-08-11T17:05:13Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Cross-lingual Entity Alignment with Incidental Supervision [76.66793175159192]
本稿では,多言語KGとテキストコーパスを共通埋め込み方式で共同で表現する,偶発的に教師付きモデルであるJEANSを提案する。
ベンチマークデータセットの実験では、JEANSがエンティティアライメントとインシデントインシデントインシデントインスペクションの改善を期待できる結果となった。
論文 参考訳(メタデータ) (2020-05-01T01:53:56Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。