論文の概要: ELR-1000: A Community-Generated Dataset for Endangered Indic Indigenous Languages
- arxiv url: http://arxiv.org/abs/2512.01077v1
- Date: Sun, 30 Nov 2025 20:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.5703
- Title: ELR-1000: A Community-Generated Dataset for Endangered Indic Indigenous Languages
- Title(参考訳): ELR-1000: 絶滅危惧言語のためのコミュニティ生成データセット
- Authors: Neha Joshi, Pamir Gogoi, Aasim Mirza, Aayush Jansari, Aditya Yadavalli, Ayushi Pandey, Arunima Shukla, Deepthi Sudharsan, Kalika Bali, Vivek Seshadri,
- Abstract要約: インド東部の農村部からクラウドソースされた1060の伝統的なレシピのマルチモーダルデータセットを提示する。
これらのレシピは言語的・文化的ニュアンスに富んだものであり、デジタルリテラシーの低いコントリビュータ向けに設計されたモバイルインターフェースを用いて収集された。
我々はこれらのレシピを英語に翻訳する際のいくつかの最先端の大規模言語モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 8.120292876217581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a culturally-grounded multimodal dataset of 1,060 traditional recipes crowdsourced from rural communities across remote regions of Eastern India, spanning 10 endangered languages. These recipes, rich in linguistic and cultural nuance, were collected using a mobile interface designed for contributors with low digital literacy. Endangered Language Recipes (ELR)-1000 -- captures not only culinary practices but also the socio-cultural context embedded in indigenous food traditions. We evaluate the performance of several state-of-the-art large language models (LLMs) on translating these recipes into English and find the following: despite the models' capabilities, they struggle with low-resource, culturally-specific language. However, we observe that providing targeted context -- including background information about the languages, translation examples, and guidelines for cultural preservation -- leads to significant improvements in translation quality. Our results underscore the need for benchmarks that cater to underrepresented languages and domains to advance equitable and culturally-aware language technologies. As part of this work, we release the ELR-1000 dataset to the NLP community, hoping it motivates the development of language technologies for endangered languages.
- Abstract(参考訳): インド東部の農村部からクラウドソースされた1060の伝統的なレシピを,10の絶滅危惧言語にまたがって,文化的に基盤としたマルチモーダルデータセットを提示する。
これらのレシピは言語的・文化的ニュアンスに富んだものであり、デジタルリテラシーの低いコントリビュータ向けに設計されたモバイルインターフェースを用いて収集された。
絶滅危惧言語レシピ(ELR:Endangered Language Recipes)-1000は、料理の習慣だけでなく、先住民の食習慣に埋め込まれた社会文化の文脈も捉えている。
我々は、これらのレシピを英語に翻訳する上で、いくつかの最先端の大規模言語モデル(LLM)の性能を評価し、以下の結果を得た。
しかし,言語に関する背景情報や翻訳例,文化保護ガイドラインなど,対象とするコンテキストの提供は,翻訳品質の大幅な向上につながっている。
本稿の結果は,言語やドメインの不足に対処し,公平で文化的に認識可能な言語技術を開発するためのベンチマークの必要性を浮き彫りにしている。
本研究の一環として,危惧言語のための言語技術開発の動機となることを願って,ERR-1000データセットをNLPコミュニティにリリースする。
関連論文リスト
- From Facts to Folklore: Evaluating Large Language Models on Bengali Cultural Knowledge [7.322034156204158]
大規模言語モデル(LLM)は,コンテキストが提供されると,文化的知識やパフォーマンスに苦しむことを示す。
我々の研究は、ベンガル語文化知識データセットを通じてこれらの制限に対処し、民俗伝統、料理芸術、地域方言を含む。
複数の多言語言語モデルについて検討したところ、これらのモデルは非文化的カテゴリーでよく機能するが、文化的な知識にかなり苦労し、文脈が提供されると性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-10-22T21:42:59Z) - What's Not on the Plate? Rethinking Food Computing through Indigenous Indian Datasets [8.546083684548966]
本稿では、インドの遠隔地からの1,000の原住民レシピのデータセットを、農村部から初めてデジタルワーカーを巻き込んだ参加モデルを用いて収集した。
このプロジェクトは6つの州で10の絶滅危惧言語コミュニティをカバーしている。
専用のモバイルアプリを使ってドキュメンテーションされたこのデータセットには、テキスト、画像、オーディオが含まれており、伝統的な食品の習慣を、生態学的、文化的な文脈とともに捉えている。
論文 参考訳(メタデータ) (2025-09-19T07:48:13Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CARE: Multilingual Human Preference Learning for Cultural Awareness [48.760262639641496]
我々は,3,490の文化的特異な質問と31.7kの人的判断応答を含む多言語リソースであるtextbfCAREを紹介する。
質の高いネイティブな嗜好の質が、様々なLMの文化意識をいかに向上させるかを示す。
分析の結果,初期の文化的パフォーマンスが向上したモデルの方がアライメントの恩恵を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。