Fugu-MT 論文翻訳(概要): FAIRification of MLC data

論文の概要: FAIRification of MLC data

arxiv url: http://arxiv.org/abs/2211.12757v1
Date: Wed, 23 Nov 2022 07:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 14:39:02.038694
Title: FAIRification of MLC data
Title（参考訳）: mlcデータの公平化
Authors: Ana Kostovska, Jasmin Bogatinovski, Andrej Treven, Sa\v{s}o D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov
Abstract要約: 我々は、FAIR(Findable, Accessible, Interoperable, Reusable)とTRUST(Transparency, Responsibility, User focus, Sustainability, and Technology)の原則に従うLCデータセットのオンラインカタログを紹介します。このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。
参考スコア（独自算出の注目度）: 5.803041363561935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The multi-label classification (MLC) task has increasingly been receiving interest from the machine learning (ML) community, as evidenced by the growing number of papers and methods that appear in the literature. Hence, ensuring proper, correct, robust, and trustworthy benchmarking is of utmost importance for the further development of the field. We believe that this can be achieved by adhering to the recently emerged data management standards, such as the FAIR (Findable, Accessible, Interoperable, and Reusable) and TRUST (Transparency, Responsibility, User focus, Sustainability, and Technology) principles. To FAIRify the MLC datasets, we introduce an ontology-based online catalogue of MLC datasets that follow these principles. The catalogue extensively describes many MLC datasets with comprehensible meta-features, MLC-specific semantic descriptions, and different data provenance information. The MLC data catalogue is extensively described in our recent publication in Nature Scientific Reports, Kostovska & Bogatinovski et al., and available at: http://semantichub.ijs.si/MLCdatasets. In addition, we provide an ontology-based system for easy access and querying of performance/benchmark data obtained from a comprehensive MLC benchmark study. The system is available at: http://semantichub.ijs.si/MLCbenchmark.
Abstract（参考訳）: マルチラベル分類(MLC)タスクは、文献に現れる論文や方法の増加によって証明されるように、機械学習(ML)コミュニティからますます関心を集めている。したがって、適切な、正しい、堅牢で信頼できるベンチマークは、この分野のさらなる発展にとって最も重要である。これは、fair (findable, access, interoperaable, and reusable) や trust (transparency, responsibility, user focus, sustainability, and technology) といった最近登場したデータ管理標準に固執することで実現できると考えています。 MLCデータセットをFAIRifyするために、これらの原則に従うLCデータセットのオントロジーに基づくオンラインカタログを導入する。このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。 MLCデータカタログは、最近のNature Scientific Reports, Kostovska & Bogatinovski et al.で広く説明されており、http://semantichub.ijs.si/MLCdatasets.comで公開されている。さらに,総合的なMLCベンチマークから得られた性能/ベンチマークデータのアクセスとクエリを容易にするオントロジーに基づくシステムを提案する。システムは以下の通りである。 http://semantichub.ijs.si/MLCbenchmark。

関連論文リスト

Exploring LLM Capabilities in Extracting DCAT-Compatible Metadata for Data Cataloging [0.1424853531377145]
データカタログは、メタデータを使用してユーザクエリに応答することで、データの探索をサポートし、加速することができる。本研究では,LLMがテキストベースのメタデータのメンテナンスを自動化し,高品質なDCAT互換メタデータを生成できるかどうかを検討する。以上の結果から,LLMは人為的コンテンツ,特に高度な意味理解を必要とするタスクに匹敵するメタデータを生成できることが示唆された。
論文参考訳（メタデータ） (2025-07-04T10:49:37Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
DocMMIR: A Framework for Document Multi-modal Information Retrieval [21.919132888183622]
本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。 450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文参考訳（メタデータ） (2025-05-25T20:58:58Z)
Leveraging Retrieval Augmented Generative LLMs For Automated Metadata Description Generation to Enhance Data Catalogs [1.1957520154275776]
データカタログは、さまざまなデータ資産の収集とアクセスのためのリポジトリとして機能する。組織内の多くのデータカタログは、資産記述のようなメタデータが不十分なため、検索容易性が制限されている。本稿では,メタデータ作成に関わる課題について考察し,既存のメタデータコンテンツを活用するという,独特なプロンプト・エンリッチメントの考え方を提案する。
論文参考訳（メタデータ） (2025-03-12T02:33:33Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。今後の研究・開発への道筋について論じる。
論文参考訳（メタデータ） (2024-10-07T13:10:40Z)
LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文参考訳（メタデータ） (2024-08-09T23:15:41Z)
DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文参考訳（メタデータ） (2024-07-15T13:17:42Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文参考訳（メタデータ） (2024-03-01T10:01:36Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文参考訳（メタデータ） (2023-10-17T14:52:33Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Explaining the Performance of Multi-label Classification Methods with Data Set Properties [1.1278903078792917]
MLC(Multi-label Classification)のためのデータセットと手法に関する総合メタラーニング研究を提案する。ここでは,40個のMLCデータセットを,データの異なる特性を記述した50個のメタ特徴を用いて解析する。 MLCデータセットの空間を記述する最も顕著なメタ機能は、ラベル空間の異なる側面を評価するものである。
論文参考訳（メタデータ） (2021-06-28T11:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。