論文の概要: Decoding the Diversity: A Review of the Indic AI Research Landscape
- arxiv url: http://arxiv.org/abs/2406.09559v1
- Date: Thu, 13 Jun 2024 19:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:24:36.160109
- Title: Decoding the Diversity: A Review of the Indic AI Research Landscape
- Title(参考訳): Decoding the Diversity: The Indic AI Research Landscapeのレビュー
- Authors: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha,
- Abstract要約: インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
- 参考スコア(独自算出の注目度): 0.7864304771129751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.
- Abstract(参考訳): 本稿では,Indic言語における大規模言語モデル(LLM)研究の方向性について概観する。
インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなどインド亜大陸で話されている言語である。
これらの言語は豊かな文化的・言語的な遺産を持ち、世界中で15億人以上の人々が話している。
さまざまな言語における自然言語処理(NLP)ベースのアプリケーションに対する市場の可能性と需要の増大により、Indic言語のための生成的アプリケーションは、研究のためのユニークな課題と機会をもたらす。
本稿では,近年のIndic Generative Modelingの進歩を深く掘り下げ,研究方向の分類に寄与し,84の論文を集計した。
本稿では, LLM 開発, 微調整既存 LLM の開発, コーパスの開発, ベンチマーク, 評価, および特定の技術, ツール, アプリケーションに関する出版物について調査を行った。
論文の研究者らは、データ可用性の制限、標準化の欠如、およびIndic言語特有の言語的複雑さに関連する課題を強調している。
この研究は、NLPの分野、特にIndic言語に焦点を当てた研究者や実践者にとって貴重なリソースとして機能することを目的としており、これらの言語のためのより正確で効率的なLLMアプリケーションの開発に寄与している。
関連論文リスト
- Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。
構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。
本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - Recent Advancements and Challenges of Turkic Central Asian Language Processing [0.0]
本稿は、中央アジアの言語、すなわちカザフ語、ウズベク語、キルギス語、トルクメン語のNLP球体に焦点を当てる。
これは、言語言語の言語特性、既に開発された技術の現在のカバレッジとパフォーマンス、ラベル付きおよびラベルなしデータの各言語での可用性について、より広範に高レベルな概要を提供する。
論文 参考訳(メタデータ) (2024-07-06T08:58:26Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers [81.47046536073682]
本稿では,MLLM(Multilingual Large Language Model)文学における最近の進歩と新たなトレンドを要約する一貫した視点を提示する。
私たちの研究がコミュニティに迅速なアクセスを提供し、MLLMにおける画期的な研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-04-07T11:52:44Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - An Overview of Indian Spoken Language Recognition from Machine Learning
Perspective [7.27448284043116]
この研究は、インドの言語認識研究分野の包括的なレビューを行う最初の試みの1つである。
インドにおけるLIDシステム開発における低リソース・相互影響の独特な課題を強調するために,インディース分析が提案されている。
論文 参考訳(メタデータ) (2022-11-30T11:03:51Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。