論文の概要: Amplify Initiative: Building A Localized Data Platform for Globalized AI
- arxiv url: http://arxiv.org/abs/2504.14105v1
- Date: Fri, 18 Apr 2025 23:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:08:52.271789
- Title: Amplify Initiative: Building A Localized Data Platform for Globalized AI
- Title(参考訳): Amplify Initiative - グローバルAIのためのローカライズドデータプラットフォームの構築
- Authors: Qazi Mamunur Rashid, Erin van Liemt, Tiffany Shih, Amber Ebinama, Karla Barrios Ramos, Madhurima Maji, Aishwarya Verma, Charu Kalia, Jamila Smith-Loud, Joyce Nakatumba-Nabende, Rehema Baguma, Andrew Katumba, Chodrine Mutebi, Jagen Marvin, Eric Peter Wairagala, Mugizi Bruce, Peter Oketta, Lawrence Nderu, Obichi Obiajunwa, Abigail Oppong, Michael Zimba, Data Authors,
- Abstract要約: 現在のAIモデルは、トレーニングデータに英語と西洋のインターネットコンテンツが優勢であることを考えると、しばしばローカルコンテキストと言語を説明できない。
データプラットフォームと方法論であるAmplify Initiativeは、専門家コミュニティを活用して、さまざまな高品質なデータを収集し、これらのモデルの限界に対処する。
このプラットフォームは、データセットの共同作成を可能にし、高品質な多言語データセットへのアクセスを提供し、データ作者に認識を提供するように設計されている。
- 参考スコア(独自算出の注目度): 3.045104054104307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI models often fail to account for local context and language, given the predominance of English and Western internet content in their training data. This hinders the global relevance, usefulness, and safety of these models as they gain more users around the globe. Amplify Initiative, a data platform and methodology, leverages expert communities to collect diverse, high-quality data to address the limitations of these models. The platform is designed to enable co-creation of datasets, provide access to high-quality multilingual datasets, and offer recognition to data authors. This paper presents the approach to co-creating datasets with domain experts (e.g., health workers, teachers) through a pilot conducted in Sub-Saharan Africa (Ghana, Kenya, Malawi, Nigeria, and Uganda). In partnership with local researchers situated in these countries, the pilot demonstrated an end-to-end approach to co-creating data with 155 experts in sensitive domains (e.g., physicians, bankers, anthropologists, human and civil rights advocates). This approach, implemented with an Android app, resulted in an annotated dataset of 8,091 adversarial queries in seven languages (e.g., Luganda, Swahili, Chichewa), capturing nuanced and contextual information related to key themes such as misinformation and public interest topics. This dataset in turn can be used to evaluate models for their safety and cultural relevance within the context of these languages.
- Abstract(参考訳): 現在のAIモデルは、トレーニングデータに英語と西洋のインターネットコンテンツが優勢であることを考えると、しばしばローカルコンテキストと言語を説明できない。
これにより、世界中のユーザが増えるにつれて、これらのモデルのグローバルな妥当性、有用性、安全性が損なわれます。
データプラットフォームと方法論であるAmplify Initiativeは、専門家コミュニティを活用して、さまざまな高品質なデータを収集し、これらのモデルの限界に対処する。
このプラットフォームは、データセットの共同作成を可能にし、高品質な多言語データセットへのアクセスを提供し、データ作者に認識を提供するように設計されている。
本稿では,サハラ以南のアフリカ(ガーナ,ケニア,マラウイ,ナイジェリア,ウガンダ)で実施されているパイロットを通じて,ドメイン専門家(医療従事者,教員)と共同でデータセットを作成する手法を提案する。
これらの国にある現地の研究者と協力して、パイロットは機密性の高い分野(医師、銀行家、人類学者、人権擁護者など)の専門家155人とデータを作成するためのエンドツーエンドのアプローチを実証した。
このアプローチはAndroidアプリで実装され、7つの言語(例えば、Luganda、Swahili、Chichewa)で8,091の逆クエリの注釈付きデータセットが得られた。
このデータセットは、これらの言語のコンテキスト内での安全性と文化的な関連性を評価するために使用することができる。
関連論文リスト
- Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
論文 参考訳(メタデータ) (2024-10-16T15:51:18Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - An open access NLP dataset for Arabic dialects : Data collection,
labeling, and model construction [0.8312466807725921]
いくつかのアラビア方言でソーシャルデータの内容のオープンデータセットを提示する。
このデータはTwitterのソーシャルネットワークから収集され、5つの国語で+50K twitsで構成されています。
このデータをオープンアクセスデータとして公開し,イノベーションを奨励し,アラビア語方言やソーシャルメディアのnlp分野の著作を奨励する。
論文 参考訳(メタデータ) (2021-02-07T01:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。