Fugu-MT 論文翻訳(概要): Decoding the Diversity: A Review of the Indic AI Research Landscape

論文の概要: Decoding the Diversity: A Review of the Indic AI Research Landscape

arxiv url: http://arxiv.org/abs/2406.09559v1
Date: Thu, 13 Jun 2024 19:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:24:36.160109
Title: Decoding the Diversity: A Review of the Indic AI Research Landscape
Title（参考訳）: Decoding the Diversity: The Indic AI Research Landscapeのレビュー
Authors: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha,
Abstract要約: インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
参考スコア（独自算出の注目度）: 0.7864304771129751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.
Abstract（参考訳）: 本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。これらの言語は豊かな文化的・言語的な遺産を持ち、世界中で15億人以上の人々が話している。さまざまな言語における自然言語処理(NLP)ベースのアプリケーションに対する市場の可能性と需要の増大により、Indic言語のための生成的アプリケーションは、研究のためのユニークな課題と機会をもたらす。本稿では,近年のIndic Generative Modelingの進歩を深く掘り下げ,研究方向の分類に寄与し,84の論文を集計した。本稿では, LLM 開発, 微調整既存 LLM の開発, コーパスの開発, ベンチマーク, 評価, および特定の技術, ツール, アプリケーションに関する出版物について調査を行った。論文の研究者らは、データ可用性の制限、標準化の欠如、およびIndic言語特有の言語的複雑さに関連する課題を強調している。この研究は、NLPの分野、特にIndic言語に焦点を当てた研究者や実践者にとって貴重なリソースとして機能することを目的としており、これらの言語のためのより正確で効率的なLLMアプリケーションの開発に寄与している。

関連論文リスト

Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research [0.6016863427924156]
本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)の進歩と課題について概観する。言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムに向けたロードマップを概説することで締めくくっている。
論文参考訳（メタデータ） (2025-12-24T20:20:31Z)
Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文参考訳（メタデータ） (2025-02-24T17:41:48Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。データ収集とアノテーションプロセスに関する課題を強調します。 BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。 IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2025-01-27T03:19:03Z)
Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文参考訳（メタデータ） (2024-12-24T04:51:32Z)
A Review of the Marathi Natural Language Processing [0.0]
本稿では,インド語におけるNLP研究の進展について概説する。 Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
論文参考訳（メタデータ） (2024-12-20T00:56:13Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳（メタデータ） (2024-06-17T01:54:27Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文参考訳（メタデータ） (2024-04-25T17:57:36Z)
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文参考訳（メタデータ） (2024-04-07T11:52:44Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
An Overview of Indian Spoken Language Recognition from Machine Learning Perspective [7.27448284043116]
この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
論文参考訳（メタデータ） (2022-11-30T11:03:51Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文参考訳（メタデータ） (2021-05-11T17:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。