論文の概要: AutoFAIR : Automatic Data FAIRification via Machine Reading
- arxiv url: http://arxiv.org/abs/2408.04673v1
- Date: Wed, 7 Aug 2024 17:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:39:53.759339
- Title: AutoFAIR : Automatic Data FAIRification via Machine Reading
- Title(参考訳): AutoFAIR : 機械読取による自動データフィアライゼーション
- Authors: Tingyan Ma, Wei Liu, Bin Lu, Xiaoying Gan, Yunqiang Zhu, Luoyi Fu, Chenghu Zhou,
- Abstract要約: 本稿では,データFAIRnessを自動的に向上するアーキテクチャであるAutoFAIRを提案する。
マシン実行可能なアクションをガイドするために、各データとメタデータ操作を、特定のFAIRインジケータと整合させます。
データのファインダビリティ、アクセシビリティ、相互運用性、再利用性の大幅な改善を観察する。
- 参考スコア(独自算出の注目度): 28.683653852643015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of data fuels data-driven research, facilitating progress across diverse domains. The FAIR principles emerge as a guiding standard, aiming to enhance the findability, accessibility, interoperability, and reusability of data. However, current efforts primarily focus on manual data FAIRification, which can only handle targeted data and lack efficiency. To address this issue, we propose AutoFAIR, an architecture designed to enhance data FAIRness automately. Firstly, We align each data and metadata operation with specific FAIR indicators to guide machine-executable actions. Then, We utilize Web Reader to automatically extract metadata based on language models, even in the absence of structured data webpage schemas. Subsequently, FAIR Alignment is employed to make metadata comply with FAIR principles by ontology guidance and semantic matching. Finally, by applying AutoFAIR to various data, especially in the field of mountain hazards, we observe significant improvements in findability, accessibility, interoperability, and reusability of data. The FAIRness scores before and after applying AutoFAIR indicate enhanced data value.
- Abstract(参考訳): データによる爆発的な成長は、データ駆動の研究を加速させ、さまざまな領域の進歩を促進する。
FAIR原則は、データの発見可能性、アクセシビリティ、相互運用性、再利用性を高めることを目的として、ガイド標準として登場した。
しかし、現在の取り組みは、主に手動データFAIRificationに焦点を当てている。
この問題に対処するため,データFAIRnessを自動的に拡張するアーキテクチャであるAutoFAIRを提案する。
まず、各データとメタデータ操作を特定のFAIRインジケータと整合させて、マシン実行可能なアクションをガイドします。
そして,構造化されたデータWebページスキーマがなくても,言語モデルに基づくメタデータを自動的に抽出するためにWeb Readerを利用する。
その後、FAIRアライメントを使用して、オントロジーガイダンスとセマンティックマッチングによってメタデータをFAIR原則に準拠させる。
最後に,様々なデータ,特に山岳災害の分野にAutoFAIRを適用することで,データの発見性,アクセシビリティ,相互運用性,再利用性に大きな改善が見られた。
AutoFAIRの適用前後のFAIRnessスコアは、拡張データ値を示している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - FAIR evaluation of ten widely used chemical datasets: Lessons learned and recommendations [0.0]
この文書は、北米とヨーロッパ(EU)市場で見つかった(有害な)物質に関するデータを拡散するデータベースに焦点を当てている。
目標は、これらの物質に関する公開データのFAIRnessを分析することである。
手動と自動の2つの補完的なアプローチを実装している。
論文 参考訳(メタデータ) (2024-07-22T12:26:41Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI [19.358073575300004]
ブラックボックスモデルを用いたデータセットの基本分布特性と意味特性に対処するデータ中心型手法を提案する。
データ中心AIコンペティションにおいて、提供されたデータセットのみで84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成する。
論文 参考訳(メタデータ) (2021-12-07T17:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。