Fugu-MT 論文翻訳(概要): Data Governance in the Age of Large-Scale Data-Driven Language Technology

論文の概要: Data Governance in the Age of Large-Scale Data-Driven Language Technology

arxiv url: http://arxiv.org/abs/2206.03216v2
Date: Wed, 2 Nov 2022 21:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 08:49:57.292971
Title: Data Governance in the Age of Large-Scale Data-Driven Language Technology
Title（参考訳）: 大規模データ駆動型言語技術の時代のデータガバナンス
Authors: Yacine Jernite, Huu Nguyen, Stella Biderman, Anna Rogers, Maraim Masoud, Valentin Danchev, Samson Tan, Alexandra Sasha Luccioni, Nishant Subramani, G\'erard Dupont, Jesse Dodge, Kyle Lo, Zeerak Talat, Isaac Johnson, Dragomir Radev, Somaieh Nikpoor, J\"org Frohberg, Aaron Gokaslan, Peter Henderson, Rishi Bommasani, Margaret Mitchell
Abstract要約: この研究は、利害関係者、価値観、権利間のデータ管理を組織化しようとする、グローバル言語データガバナンスへのアプローチを提案する。現在提案するフレームワークは、言語データに焦点を当てた多政党の国際ガバナンス構造であり、その作業を支援するために必要な技術および組織ツールを取り入れています。
参考スコア（独自算出の注目度）: 79.92626780294258
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent emergence and adoption of Machine Learning technology, and specifically of Large Language Models, has drawn attention to the need for systematic and transparent management of language data. This work proposes an approach to global language data governance that attempts to organize data management amongst stakeholders, values, and rights. Our proposal is informed by prior work on distributed governance that accounts for human values and grounded by an international research collaboration that brings together researchers and practitioners from 60 countries. The framework we present is a multi-party international governance structure focused on language data, and incorporating technical and organizational tools needed to support its work.
Abstract（参考訳）: 近年の機械学習技術,特に大規模言語モデルの普及により,言語データの体系的かつ透過的な管理の必要性が注目されている。本研究は,利害関係者,価値,権利間のデータ管理を組織化しようとする,グローバル言語データガバナンスへのアプローチを提案する。本提案は,60カ国の研究者と実践者を集結させる国際共同研究により,人的価値を考慮に入れた分散ガバナンスに関する先行研究から得られたものである。このフレームワークは、言語データに焦点を当てた多政党の国際ガバナンス構造であり、その作業を支援するために必要な技術および組織ツールを取り入れています。

関連論文リスト

Culturally-Grounded Governance for Multilingual Language Models: Rights, Data Boundaries, and Accountable AI Design [2.5424331328233207]
本稿では,多言語モデル行動,データ対称性,社会工学的害に関する既存の証拠を合成する。学習データと評価実践における文化的・言語的不平等,グローバル展開と地域的標準,価値観,権力構造との相違,疎外化言語コミュニティが経験した害に対処するための限定的な説明責任機構の3つを識別する。我々は、多言語モデルが、スケールと中立という概念の下で、既存のグローバルな不平等を再現しないことを保証するためには、文化的に根ざしたガバナンスが不可欠であると主張する。
論文参考訳（メタデータ） (2026-01-31T03:47:30Z)
Data Stewardship Decoded: Mapping Its Diverse Manifestations and Emerging Relevance at a time of AI [0.21756081703275998]
データスチュワードシップは、特に人工知能(AI)の利用の増加に伴い、現代データガバナンスの重要な要素となっている。重要性が増しているにもかかわらず、データスチュワードシップの概念はあいまいであり、その適用範囲は様々である。本稿では,データガバナンスの現場における新たな立場を明らかにするために,データスチュワードシップの4つの特徴について考察する。
論文参考訳（メタデータ） (2025-01-20T16:24:22Z)
Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文参考訳（メタデータ） (2024-12-19T01:30:19Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-10-24T03:02:03Z)
Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文参考訳（メタデータ） (2024-10-10T13:00:53Z)
Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance [0.0]
私たちの作業は、特定のアプリケーションドメインに固有の、大量の短いテキストドキュメントを管理し、処理する必要があることによるものです。ドメイン固有の知識と専門知識を活用することで、このアプローチは、これらのドメイン内の実データを形成することを目的としています。我々の研究は、ドメイン固有言語モデルとグラフ指向データベースのパートナーシップの変革の可能性を強調します。
論文参考訳（メタデータ） (2024-10-04T19:02:09Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
Layers of technology in pluriversal design. Decolonising language technology with the LiveLanguage initiative [9.063726739562227]
本稿では, 語彙データベースであるLiveLanguageを用いて, 多変数設計理論から実践までのギャップを議論し, 解決する例を示す。本稿では,5層の技術活動からなるモデルを提案する。
論文参考訳（メタデータ） (2024-05-02T23:52:39Z)
A Systematic Study of Performance Disparities in Multilingual Task-Oriented Dialogue Systems [68.76102493999134]
マルチリンガルなタスク指向対話システム間に存在するタスクパフォーマンスの相違を,実証的に分析し,分析する。我々は現在のToDシステムにおける適応と本質的バイアスの存在を証明した。本稿では,新しい言語に対するToDデータ収集とシステム開発へのアプローチについて,実践的なヒントを提供する。
論文参考訳（メタデータ） (2023-10-19T16:41:44Z)
Mapping and Comparing Data Governance Frameworks: A benchmarking exercise to inform global data governance deliberations [0.0]
この記事は、データの急速な成長と責任あるデータ利用と保護の必要性による、グローバルデータガバナンスの重要性の高まりについて説明する。報告書は、データのグローバルフローを責任を持って、そして公共の関心のために管理するための、より包括的な、協調的なデータガバナンスアプローチの必要性を強調している。
論文参考訳（メタデータ） (2023-02-27T12:56:25Z)
Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。 DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文参考訳（メタデータ） (2022-11-21T18:56:00Z)
GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文参考訳（メタデータ） (2021-10-14T19:33:04Z)
Systematic Inequalities in Language Technology Performance across the World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文参考訳（メタデータ） (2021-10-13T14:03:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。