論文の概要: FAIRification of MLC data
- arxiv url: http://arxiv.org/abs/2211.12757v1
- Date: Wed, 23 Nov 2022 07:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:39:02.038694
- Title: FAIRification of MLC data
- Title(参考訳): mlcデータの公平化
- Authors: Ana Kostovska, Jasmin Bogatinovski, Andrej Treven, Sa\v{s}o
D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov
- Abstract要約: 我々は、FAIR(Findable, Accessible, Interoperable, Reusable)とTRUST(Transparency, Responsibility, User focus, Sustainability, and Technology)の原則に従うLCデータセットのオンラインカタログを紹介します。
このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。
- 参考スコア(独自算出の注目度): 5.803041363561935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-label classification (MLC) task has increasingly been receiving
interest from the machine learning (ML) community, as evidenced by the growing
number of papers and methods that appear in the literature. Hence, ensuring
proper, correct, robust, and trustworthy benchmarking is of utmost importance
for the further development of the field. We believe that this can be achieved
by adhering to the recently emerged data management standards, such as the FAIR
(Findable, Accessible, Interoperable, and Reusable) and TRUST (Transparency,
Responsibility, User focus, Sustainability, and Technology) principles. To
FAIRify the MLC datasets, we introduce an ontology-based online catalogue of
MLC datasets that follow these principles. The catalogue extensively describes
many MLC datasets with comprehensible meta-features, MLC-specific semantic
descriptions, and different data provenance information. The MLC data catalogue
is extensively described in our recent publication in Nature Scientific
Reports, Kostovska & Bogatinovski et al., and available at:
http://semantichub.ijs.si/MLCdatasets. In addition, we provide an
ontology-based system for easy access and querying of performance/benchmark
data obtained from a comprehensive MLC benchmark study. The system is available
at: http://semantichub.ijs.si/MLCbenchmark.
- Abstract(参考訳): マルチラベル分類(MLC)タスクは、文献に現れる論文や方法の増加によって証明されるように、機械学習(ML)コミュニティからますます関心を集めている。
したがって、適切な、正しい、堅牢で信頼できるベンチマークは、この分野のさらなる発展にとって最も重要である。
これは、fair (findable, access, interoperaable, and reusable) や trust (transparency, responsibility, user focus, sustainability, and technology) といった最近登場したデータ管理標準に固執することで実現できると考えています。
MLCデータセットをFAIRifyするために、これらの原則に従うLCデータセットのオントロジーに基づくオンラインカタログを導入する。
このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。
MLCデータカタログは、最近のNature Scientific Reports, Kostovska & Bogatinovski et al.で広く説明されており、http://semantichub.ijs.si/MLCdatasets.comで公開されている。
さらに,総合的なMLCベンチマークから得られた性能/ベンチマークデータのアクセスとクエリを容易にするオントロジーに基づくシステムを提案する。
システムは以下の通りである。 http://semantichub.ijs.si/MLCbenchmark。
関連論文リスト
- Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。
既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。
今後の研究・開発への道筋について論じる。
論文 参考訳(メタデータ) (2024-10-07T13:10:40Z) - LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。
近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。
収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文 参考訳(メタデータ) (2024-08-09T23:15:41Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Explaining the Performance of Multi-label Classification Methods with
Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。
ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。
MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文 参考訳(メタデータ) (2021-06-28T11:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。