論文の概要: What Do Indonesians Really Need from Language Technology? A Nationwide Survey
- arxiv url: http://arxiv.org/abs/2506.07506v1
- Date: Mon, 09 Jun 2025 07:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.851276
- Title: What Do Indonesians Really Need from Language Technology? A Nationwide Survey
- Title(参考訳): インドネシア人は言語技術に何を必要としているのか? 全国調査
- Authors: Muhammad Dehan Al Kautsar, Lucky Susanto, Derry Wijaya, Fajri Koto,
- Abstract要約: インドネシアにおける母語話者の実際のニーズを評価するために全国調査を実施している。
以上の結果から,特に機械翻訳や情報検索による言語障壁への対処が最重要課題であることが示唆された。
- 参考スコア(独自算出の注目度): 8.339887237261031
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There is an emerging effort to develop NLP for Indonesias 700+ local languages, but progress remains costly due to the need for direct engagement with native speakers. However, it is unclear what these language communities truly need from language technology. To address this, we conduct a nationwide survey to assess the actual needs of native speakers in Indonesia. Our findings indicate that addressing language barriers, particularly through machine translation and information retrieval, is the most critical priority. Although there is strong enthusiasm for advancements in language technology, concerns around privacy, bias, and the use of public data for AI training highlight the need for greater transparency and clear communication to support broader AI adoption.
- Abstract(参考訳): インドネシアの700以上の地方言語向けにNLPを開発する努力が増えているが、ネイティブスピーカーとの直接の関わりの必要性から、開発はコストがかかるままである。
しかし、これらの言語コミュニティが本当に言語技術から何を必要としているのかは不明である。
これを解決するため,インドネシアの母語話者の実際のニーズを評価する全国調査を実施している。
以上の結果から,特に機械翻訳や情報検索による言語障壁への対処が最重要課題であることが示唆された。
言語技術の進歩には強い熱意があるが、プライバシ、バイアス、AIトレーニングのための公開データの使用に関する懸念は、より広範なAI採用をサポートするための透明性と明確なコミュニケーションの必要性を強調している。
関連論文リスト
- Building low-resource African language corpora: A case study of Kidawida, Kalenjin and Dholuo [0.815557531820863]
本稿では,Kedaw'ida,Kalenjin,Dholuoの3言語を対象とした言語コーパスの開発事例について述べる。
本プロジェクトは,これらの言語の母語話者からテキストや音声データを収集するために,選択的クラウドソーシング手法を用いた。
我々はこれらのリソースをオープン検索プラットフォーム、すなわち並列テキストコーパスのZenodoと音声データセットのMozilla Common Voiceを通じて自由にアクセスできるようにした。
論文 参考訳(メタデータ) (2025-01-19T10:17:21Z) - Real-Time Multilingual Sign Language Processing [4.626189039960495]
手話処理(SLP)は、自然言語処理(NLP)とコンピュータビジョンからなる学際分野である。
伝統的なアプローチは、言語固有のものであり、手話の多次元的な性質を捉えるのに不十分なグロスベースのシステムを使用することによって、しばしば制約されてきた。
本稿では,手話文字起こし表記システムであるSignWiringを,手話の視覚・ジェスチャーのモダリティとテキストに基づく言語表現の中間的リンクとして用いることを提案する。
論文 参考訳(メタデータ) (2024-12-02T21:51:41Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation [0.0]
生成型大規模言語モデル(LLM)は、テキスト理解と生成において非並列的な能力を示すイノベーションの最前線にある。
しかし、ウクライナ語のような低リソース言語の限られた表現は、この技術のリーチと関連性を制限し、顕著な課題となっている。
本稿は, オープンソースのGemmaとMistral LLMをウクライナのデータセットで微調整し, 言語能力の向上を目指す。
論文 参考訳(メタデータ) (2024-04-14T04:25:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。