Fugu-MT 論文翻訳(概要): DMLR: Data-centric Machine Learning Research -- Past, Present and Future

論文の概要: DMLR: Data-centric Machine Learning Research -- Past, Present and Future

arxiv url: http://arxiv.org/abs/2311.13028v2
Date: Sat, 1 Jun 2024 13:28:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:21:27.503630
Title: DMLR: Data-centric Machine Learning Research -- Past, Present and Future
Title（参考訳）: DMLR:データ中心機械学習研究の過去、現在、未来
Authors: Luis Oala, Manil Maskey, Lilith Bat-Leah, Alicia Parrish, Nezihe Merve Gürel, Tzu-Sheng Kuo, Yang Liu, Rotem Dror, Danilo Brajovic, Xiaozhe Yao, Max Bartolo, William A Gaviria Rojas, Ryan Hileman, Rainier Aliment, Michael W. Mahoney, Meg Risdal, Matthew Lease, Wojciech Samek, Debojyoti Dutta, Curtis G Northcutt, Cody Coleman, Braden Hancock, Bernard Koch, Girmaw Abebe Tadesse, Bojan Karlaš, Ahmed Alaa, Adji Bousso Dieng, Natasha Noy, Vijay Janapa Reddi, James Zou, Praveen Paritosh, Mihaela van der Schaar, Kurt Bollacker, Lora Aroyo, Ce Zhang, Joaquin Vanschoren, Isabelle Guyon, Peter Mattson,
Abstract要約: 我々は、機械学習科学を前進させる次世代のパブリックデータセットを作成するためのコミュニティエンゲージメントとインフラ開発との関係について概説する。われわれは、これらのデータセットの作成と維持を継続し、ポジティブな科学的、社会的、ビジネスへの影響への道のりを図った。
参考スコア（独自算出の注目度）: 94.06475098911947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Drawing from discussions at the inaugural DMLR workshop at ICML 2023 and meetings prior, in this report we outline the relevance of community engagement and infrastructure development for the creation of next-generation public datasets that will advance machine learning science. We chart a path forward as a collective effort to sustain the creation and maintenance of these datasets and methods towards positive scientific, societal and business impact.
Abstract（参考訳）: 本報告では,ICML 2023 の第1回DMLRワークショップの議論から,機械学習科学を進展させる次世代のパブリックデータセットの作成における,コミュニティの関与とインフラ開発の関連性について概説する。われわれは、これらのデータセットの作成と維持を継続し、ポジティブな科学的、社会的、ビジネスへの影響への道のりを図った。

関連論文リスト

"Rebuilding" Statistics in the Age of AI: A Town Hall Discussion on Culture, Infrastructure, and Training [39.65771411355121]
市役所は開かれたパネルディスカッションと広範囲の聴衆のQ&Aを中心に構成された。このプレプリントは、データとAI中心の未来における統計の役割の進化に関する透明性、コミュニティのリフレクション、進行中の対話をサポートすることを目的としている。
論文参考訳（メタデータ） (2026-01-24T16:15:04Z)
A Deep Dive into OpenStreetMap Research Since its Inception (2008-2024): Contributors, Topics, and Future Trends [10.74296478034096]
OpenStreetMap (OSM) は、先駆的なボランティア地理情報(VGI)プロジェクトから、グローバルな多分野研究ネクサスへと移行した。本研究はOSM研究ランドスケープの文献的・体系的分析を行い,その発達軌跡と鍵駆動力について検討する。
論文参考訳（メタデータ） (2026-01-14T10:13:48Z)
From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文参考訳（メタデータ） (2025-09-14T12:20:39Z)
Diffusion Models for Future Networks and Communications: A Comprehensive Survey [65.97057929688499]
近年のGenerative AI(GenAI)の台頭は、無線通信やネットワークの変革的進歩を触媒している。 GenAIファミリーの中では、拡散モデル(DM)が強力な選択肢として注目されている。我々は,将来の通信システムにおけるDMの理論的基礎と実践的応用の包括的概要を提供する。
論文参考訳（メタデータ） (2025-08-03T04:59:58Z)
The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes [3.770155074442168]
WWD(World Wide Dishes)の構築過程を反映して、機械学習(ML)アプリケーションのためのデータセット構築プロセスのウィンドウを提供する。コミュニティメンバは研究プロセスの設計をガイドし、データセットを構築するためのクラウドソーシングの取り組みに従事します。我々は,WWDの裏側研究チームからの反射を分析し,参加型デザイン作業の目に見えない労働力の実証的証拠を提示する。
論文参考訳（メタデータ） (2025-02-09T17:09:46Z)
Data clustering: an essential technique in data science [28.124442353352183]
この記事では、クラスタリングの基礎となる重要な原則を強調し、広く使われているツールとフレームワークの概要を説明し、データサイエンスにおけるクラスタリングのワークフローを紹介します。この論文は、クラスタリングがイノベーションを推進し、データ駆動による意思決定を可能にする上での役割を強調し、今後の研究方向性に関する洞察で締めくくっている。
論文参考訳（メタデータ） (2024-12-25T03:14:18Z)
Future of Information Retrieval Research in the Age of Generative AI [61.56371468069577]
情報検索(IR)の急速に発展する分野では、大規模言語モデル(LLM)のような生成AI技術の統合が、情報の検索やインタラクションの方法を変えつつある。このパラダイムシフトを認識したビジョンワークショップが2024年7月に開催され、生成AI時代のIRの将来について議論した。本報告は、潜在的に重要な研究トピックとしての議論の要約を含み、学術、産業実践家、機関、評価キャンペーン、資金提供機関の推薦リストを含む。
論文参考訳（メタデータ） (2024-12-03T00:01:48Z)
Development of a Web-based Research Consortium Database Management System: Advancing Data-driven and Knowledge-based Project Management [0.3562485774739681]
本稿では,CLAARRDECのためのWebベースデータベースとリアルタイムモニタリングシステムの開発について述べる。このシステムは,コンソーシアム内のデータ収集,保存,検索,利用の促進を目的としている。 CLAARRDECを超える可能性があり、フィリピンの他の研究コンソーシアムが利用することができる。
論文参考訳（メタデータ） (2024-11-01T09:55:09Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
Analog and Multi-modal Manufacturing Datasets Acquired on the Future Factories Platform [0.0]
本稿では,2つの業界グレードのデータセットについて述べる。 2023年12月11日と12日にサウスカロライナ大学のFuture Factories Labで収集された。
論文参考訳（メタデータ） (2024-01-28T02:26:58Z)
Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文参考訳（メタデータ） (2024-01-04T02:43:57Z)
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [130.87142103774752]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。また、解決を保障する科学的、技術的課題も検討している。
論文参考訳（メタデータ） (2023-12-06T10:46:53Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
A Roadmap for Greater Public Use of Privacy-Sensitive Government Data: Workshop Report [11.431595898012377]
このワークショップは、政府のさまざまなレベルでのデータ共有の課題と成功に焦点を当てている。初日は、公式なプライバシ技術、合成データ、暗号化アプローチなど、公開データの共有に適用される新しい技術の成功例に焦点を当てた。
論文参考訳（メタデータ） (2022-06-17T17:20:29Z)
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research [3.536605202672355]
我々は,データセットの利用パターンが,2015年から2020年にかけての機械学習サブコミュニティと時間にわたってどのように異なるかを検討した。タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。
論文参考訳（メタデータ） (2021-12-03T05:01:47Z)
SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning [63.192289553021816]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文参考訳（メタデータ） (2021-11-08T18:59:04Z)
Data and its (dis)contents: A survey of dataset development and use in machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文参考訳（メタデータ） (2020-12-09T22:13:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。