論文の概要: Bridging the Data Provenance Gap Across Text, Speech and Video
- arxiv url: http://arxiv.org/abs/2412.17847v1
- Date: Thu, 19 Dec 2024 01:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:57:04.628864
- Title: Bridging the Data Provenance Gap Across Text, Speech and Video
- Title(参考訳): テキスト、音声、ビデオにまたがるデータ公開ギャップのブリッジ
- Authors: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara,
- Abstract要約: 我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
- 参考スコア(独自算出の注目度): 67.72097952282262
- License:
- Abstract: Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.
- Abstract(参考訳): AIの進歩は、主にトレーニングデータのスケールと品質によって駆動される。
それにもかかわらず、テキストを超えて確立されたデータセットの属性を調べる経験的分析の欠如がある。
本研究は, テキスト, 音声, ビデオデータセットの詳細なソーシング傾向から, 地理的および言語的表現に制限を加えることで, モダリティ全体にわたって, 最大かつ第一級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習のアプリケーションは、トレーニングセットのためにYouTubeのような、Webcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行し、2019年以降、他のすべてのソースを削除しています。
第二に、データセットの連鎖をトレースすることで、データセットの33%未満が制限的にライセンスされているのに対して、広く使用されているテキスト、スピーチ、ビデオデータセットのソースコンテンツの80%以上は、非商業的な制限を受けています。
最後に、公的なAIトレーニングデータセットで表現される言語や地理の数の増加に対して、我々の監査は、相対的な地理的および多言語表現の尺度が2013年以来、その範囲を大幅に改善することができなかったことを実証している。
監査の幅は、エコシステムレベルでのデータソーシング、制限、西洋中心の傾向を実証的に調査する上で有効であり、これらの質問に対する可視化は、責任あるAIの進歩に不可欠である、と私たちは信じています。
データセットの透明性と責任ある使用に関する継続的な改善への貢献として、私たちはマルチモーダル監査全体をリリースしています。
関連論文リスト
- Cultural Fidelity in Large-Language Models: An Evaluation of Online Language Resources as a Driver of Model Performance in Value Representation [0.0]
GPT-4oが国の社会的価値を反映する能力は、その言語でデジタルリソースが利用可能であることと相関していることを示す。
低リソース言語、特にグローバル・サウスで顕著なWeakerのパフォーマンスは、デジタル・ディビジョンを悪化させる可能性がある。
論文 参考訳(メタデータ) (2024-10-14T13:33:00Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - A Study on Scaling Up Multilingual News Framing Analysis [23.80807884935475]
本研究では,クラウドソーシングによるデータセット生成の可能性を検討する。
まず、英語ニュース以外のフレーミング分析を多言語文脈に拡張する。
また、ベンガルとポルトガルの移民と同性結婚に関する新しい基準も提示する。
論文 参考訳(メタデータ) (2024-04-01T21:02:18Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Content4All Open Research Sign Language Translation Datasets [27.36513138911057]
我々は、より大きなニュース領域に関する190時間の映像からなる6つのデータセットをリリースする。
このことから、聴覚障害者の専門家や通訳者が20時間の映像を注釈し、研究目的で公開しています。
論文 参考訳(メタデータ) (2021-05-05T22:14:53Z) - Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets [21.375943264243144]
5つの主要な公開データセットでリリースした205言語固有のコーパスの品質を手作業で監査する。
以上の結果から,少なくとも15コーパスは完全に誤用され,50%未満の品質の文を含むことが明らかとなった。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:30:33Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。