論文の概要: Decoding the Diversity: A Review of the Indic AI Research Landscape
- arxiv url: http://arxiv.org/abs/2406.09559v1
- Date: Thu, 13 Jun 2024 19:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.160109
- Title: Decoding the Diversity: A Review of the Indic AI Research Landscape
- Title(参考訳): Decoding the Diversity: The Indic AI Research Landscapeのレビュー
- Authors: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha,
- Abstract要約: インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
- 参考スコア(独自算出の注目度): 0.7864304771129751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.
- Abstract(参考訳): 本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
これらの言語は豊かな文化的・言語的な遺産を持ち、世界中で15億人以上の人々が話している。
さまざまな言語における自然言語処理(NLP)ベースのアプリケーションに対する市場の可能性と需要の増大により、Indic言語のための生成的アプリケーションは、研究のためのユニークな課題と機会をもたらす。
本稿では,近年のIndic Generative Modelingの進歩を深く掘り下げ,研究方向の分類に寄与し,84の論文を集計した。
本稿では, LLM 開発, 微調整既存 LLM の開発, コーパスの開発, ベンチマーク, 評価, および特定の技術, ツール, アプリケーションに関する出版物について調査を行った。
論文の研究者らは、データ可用性の制限、標準化の欠如、およびIndic言語特有の言語的複雑さに関連する課題を強調している。
この研究は、NLPの分野、特にIndic言語に焦点を当てた研究者や実践者にとって貴重なリソースとして機能することを目的としており、これらの言語のためのより正確で効率的なLLMアプリケーションの開発に寄与している。
関連論文リスト
- IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。
IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-01-27T03:19:03Z) - Survey of Pseudonymization, Abstractive Summarization & Spell Checker for Hindi and Marathi [0.0]
本研究の目的は,英語,ヒンディー語,マラティア語でテキスト匿名化,抽象的テキスト要約,スペルチェックなど,さまざまな機能を利用できるプラットフォームを構築することである。
これらのツールの目的は、主にインド地域言語を使用する企業や消費者の顧客に提供することである。
論文 参考訳(メタデータ) (2024-12-24T04:51:32Z) - A Review of the Marathi Natural Language Processing [0.0]
本稿では,インド語におけるNLP研究の進展について概説する。
Marathiと、研究コミュニティが利用できる最先端のリソースとツールに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-20T00:56:13Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。