論文の概要: FAIRification of MLC data
- arxiv url: http://arxiv.org/abs/2211.12757v1
- Date: Wed, 23 Nov 2022 07:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:39:02.038694
- Title: FAIRification of MLC data
- Title(参考訳): mlcデータの公平化
- Authors: Ana Kostovska, Jasmin Bogatinovski, Andrej Treven, Sa\v{s}o
D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov
- Abstract要約: 我々は、FAIR(Findable, Accessible, Interoperable, Reusable)とTRUST(Transparency, Responsibility, User focus, Sustainability, and Technology)の原則に従うLCデータセットのオンラインカタログを紹介します。
このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。
- 参考スコア(独自算出の注目度): 5.803041363561935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-label classification (MLC) task has increasingly been receiving
interest from the machine learning (ML) community, as evidenced by the growing
number of papers and methods that appear in the literature. Hence, ensuring
proper, correct, robust, and trustworthy benchmarking is of utmost importance
for the further development of the field. We believe that this can be achieved
by adhering to the recently emerged data management standards, such as the FAIR
(Findable, Accessible, Interoperable, and Reusable) and TRUST (Transparency,
Responsibility, User focus, Sustainability, and Technology) principles. To
FAIRify the MLC datasets, we introduce an ontology-based online catalogue of
MLC datasets that follow these principles. The catalogue extensively describes
many MLC datasets with comprehensible meta-features, MLC-specific semantic
descriptions, and different data provenance information. The MLC data catalogue
is extensively described in our recent publication in Nature Scientific
Reports, Kostovska & Bogatinovski et al., and available at:
http://semantichub.ijs.si/MLCdatasets. In addition, we provide an
ontology-based system for easy access and querying of performance/benchmark
data obtained from a comprehensive MLC benchmark study. The system is available
at: http://semantichub.ijs.si/MLCbenchmark.
- Abstract(参考訳): マルチラベル分類(MLC)タスクは、文献に現れる論文や方法の増加によって証明されるように、機械学習(ML)コミュニティからますます関心を集めている。
したがって、適切な、正しい、堅牢で信頼できるベンチマークは、この分野のさらなる発展にとって最も重要である。
これは、fair (findable, access, interoperaable, and reusable) や trust (transparency, responsibility, user focus, sustainability, and technology) といった最近登場したデータ管理標準に固執することで実現できると考えています。
MLCデータセットをFAIRifyするために、これらの原則に従うLCデータセットのオントロジーに基づくオンラインカタログを導入する。
このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。
MLCデータカタログは、最近のNature Scientific Reports, Kostovska & Bogatinovski et al.で広く説明されており、http://semantichub.ijs.si/MLCdatasets.comで公開されている。
さらに,総合的なMLCベンチマークから得られた性能/ベンチマークデータのアクセスとクエリを容易にするオントロジーに基づくシステムを提案する。
システムは以下の通りである。 http://semantichub.ijs.si/MLCbenchmark。
関連論文リスト
- Text classification of column headers with a controlled vocabulary:
leveraging LLMs for metadata enrichment [0.0]
本稿では,3つのLarge Language Model (LLM) を用いて,列ヘッダのトピックアノテーションを用いたメタデータの充実を支援する手法を提案する。
本研究では, LLMの内部整合性, マシン間アライメント, トピック分類タスクに対する人間と機械の合意性を評価することによって, アプローチを評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific
Data Visualization [88.72769238904908]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent
Reinforcement Learning [4.159549932951023]
オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効果的な分散型コントローラを構築するための有望なパラダイムを提供する。
MARLはまだ初期段階であり、標準化されたベンチマークデータセットとベースラインがない。
OG-MARLは、協調的なオフラインMARL研究のためのベースラインを持つ高品質データセットのリポジトリである。
論文 参考訳(メタデータ) (2023-02-01T15:41:27Z) - Open-Source Framework for Encrypted Internet and Malicious Traffic
Classification [4.495583520377878]
インターネットトラフィックの分類は、ネットワークの可視性、品質・オブ・サービス(QoS)、侵入検知、品質・オブ・エクスペリエンス(QoE)、トラフィック・トレンド分析において重要な役割を果たす。
本稿では,学習プロセスの全パイプラインを提供するオープンソースフレームワークOSF-EIMTCを提案する。
論文 参考訳(メタデータ) (2022-06-21T07:01:57Z) - Explaining the Performance of Multi-label Classification Methods with
Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。
ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。
MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文 参考訳(メタデータ) (2021-06-28T11:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。