論文の概要: AdiBhashaa: A Community-Curated Benchmark for Machine Translation into Indian Tribal Languages
- arxiv url: http://arxiv.org/abs/2512.04765v1
- Date: Thu, 04 Dec 2025 13:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.174507
- Title: AdiBhashaa: A Community-Curated Benchmark for Machine Translation into Indian Tribal Languages
- Title(参考訳): AdiBhashaa: インドの部族語への機械翻訳のためのコミュニティキュレーションベンチマーク
- Authors: Pooja Singh, Sandeep Kumar,
- Abstract要約: AdiBhashaaというコミュニティ主導のイニシアチブは、4つの主要なインド部族言語のための最初のオープン並列コーパスとベースラインMTシステムを構築している。
この研究は、参加型データ作成とネイティブスピーカー、ヒューマン・イン・ザ・ループ・バリデーション、エンコーダ・デコーダMTモデルと大規模言語モデルの両方を体系的に評価する。
- 参考スコア(独自算出の注目度): 3.2873201228433846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models and multilingual machine translation (MT) systems increasingly drive access to information, yet many languages of the tribal communities remain effectively invisible in these technologies. This invisibility exacerbates existing structural inequities in education, governance, and digital participation. We present AdiBhashaa, a community-driven initiative that constructs the first open parallel corpora and baseline MT systems for four major Indian tribal languages-Bhili, Mundari, Gondi, and Santali. This work combines participatory data creation with native speakers, human-in-the-loop validation, and systematic evaluation of both encoder-decoder MT models and large language models. In addition to reporting technical findings, we articulate how AdiBhashaa illustrates a possible model for more equitable AI research: it centers local expertise, builds capacity among early-career researchers from marginalized communities, and foregrounds human validation in the development of language technologies.
- Abstract(参考訳): 大規模言語モデルと多言語機械翻訳(MT)システムは情報へのアクセスをますます促進するが、これらの技術では部族社会の多くの言語が効果的に見えないままである。
この不可視性は、教育、ガバナンス、デジタル参加における既存の構造的不平等を悪化させる。
AdiBhashaaは、Bhili、Mundari、Gondi、Santaliの4つの主要な部族言語のための、最初のオープン並列コーパスとベースラインMTシステムを構築するコミュニティ主導のイニシアティブである。
この研究は、参加型データ作成とネイティブスピーカー、ヒューマン・イン・ザ・ループ・バリデーション、エンコーダ・デコーダMTモデルと大規模言語モデルの両方を体系的に評価する。
技術的発見の報告に加えて、AdiBhashaaは、より公平なAI研究のモデルとして、ローカルな専門知識を集中し、疎外されたコミュニティのアーリーケア研究者の能力を構築し、言語技術の発展における人間の検証を先導する。
関連論文リスト
- Chitrarth: Bridging Vision and Language for a Billion People [4.434971952378384]
我々は、包括的視覚言語モデル(VLM)であるChitrarth (Chitra: Image; Artha: Meaning)を紹介する。
我々のモデルは、多言語画像テキストデータに基づいて訓練された視覚モジュールと、最先端(SOTA)多言語大言語モデル(LLM)を効果的に統合する。
本モデルでは,低リソース言語を対象としたベンチマークのSOTA結果が得られたが,その効率は英語で維持されている。
論文 参考訳(メタデータ) (2025-02-21T11:38:40Z) - Developing multilingual speech synthesis system for Ojibwe, Mi'kmaq, and Maliseet [4.889851090443267]
我々は,Ojibwe,Mi'kmaq,Maliseetの多言語テキスト音声(TTS)システムについて述べる。
この結果から,3言語に類する多言語TSモデルをトレーニングすることで,単言語モデルよりも性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2025-02-04T20:36:55Z) - Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。
Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。
私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文 参考訳(メタデータ) (2024-07-17T14:46:37Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。