論文の概要: Exploring LLM Capabilities in Extracting DCAT-Compatible Metadata for Data Cataloging
- arxiv url: http://arxiv.org/abs/2507.05282v1
- Date: Fri, 04 Jul 2025 10:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.180116
- Title: Exploring LLM Capabilities in Extracting DCAT-Compatible Metadata for Data Cataloging
- Title(参考訳): データカタログ作成のためのDCAT互換メタデータ抽出におけるLCM機能の検討
- Authors: Lennart Busch, Daniel Tebernum, Gissel Velarde,
- Abstract要約: データカタログは、メタデータを使用してユーザクエリに応答することで、データの探索をサポートし、加速することができる。
本研究では,LLMがテキストベースのメタデータのメンテナンスを自動化し,高品質なDCAT互換メタデータを生成できるかどうかを検討する。
以上の結果から,LLMは人為的コンテンツ,特に高度な意味理解を必要とするタスクに匹敵するメタデータを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.1424853531377145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient data exploration is crucial as data becomes increasingly important for accelerating processes, improving forecasts and developing new business models. Data consumers often spend 25-98 % of their time searching for suitable data due to the exponential growth, heterogeneity and distribution of data. Data catalogs can support and accelerate data exploration by using metadata to answer user queries. However, as metadata creation and maintenance is often a manual process, it is time-consuming and requires expertise. This study investigates whether LLMs can automate metadata maintenance of text-based data and generate high-quality DCAT-compatible metadata. We tested zero-shot and few-shot prompting strategies with LLMs from different vendors for generating metadata such as titles and keywords, along with a fine-tuned model for classification. Our results show that LLMs can generate metadata comparable to human-created content, particularly on tasks that require advanced semantic understanding. Larger models outperformed smaller ones, and fine-tuning significantly improves classification accuracy, while few-shot prompting yields better results in most cases. Although LLMs offer a faster and reliable way to create metadata, a successful application requires careful consideration of task-specific criteria and domain context.
- Abstract(参考訳): 効率的なデータ探索は、データがプロセスの加速、予測の改善、新しいビジネスモデルの開発にますます重要になるにつれて重要である。
データコンシューマは、指数的な成長、不均一性、データの分散のために、適切なデータを探すのに25~98パーセントを費やします。
データカタログは、メタデータを使用してユーザクエリに応答することで、データの探索をサポートし、加速することができる。
しかしながら、メタデータの作成とメンテナンスは手作業のプロセスであることが多いため、時間がかかり、専門知識が必要になります。
本研究では,LLMがテキストベースのメタデータのメンテナンスを自動化し,高品質なDCAT互換メタデータを生成できるかどうかを検討する。
我々は、タイトルやキーワードなどのメタデータを生成するため、異なるベンダーのLCMを使ってゼロショットと少数ショットのプロンプト戦略を、分類のための微調整モデルとともにテストした。
以上の結果から,LLMは人為的コンテンツ,特に高度な意味理解を必要とするタスクに匹敵するメタデータを生成できることが示唆された。
より大型のモデルはより小型のモデルよりも優れており、微調整によって分類精度が大幅に向上する一方、ショットプロンプトはほとんどの場合、より良い結果が得られる。
LLMはメタデータを作成するための高速で信頼性の高い方法を提供するが、成功するアプリケーションにはタスク固有の基準とドメインコンテキストを慎重に考慮する必要がある。
関連論文リスト
- A Survey of LLM $\times$ DATA [71.96808497574658]
大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。
一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。
一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
論文 参考訳(メタデータ) (2025-05-24T01:57:12Z) - Augmented Relevance Datasets with Fine-Tuned Small LLMs [0.7022492404644501]
本稿では,小型かつ微調整された大規模言語モデル (LLM) を用いた妥当性評価の自動化について検討する。
そこで我々は,小規模LLMを微調整し,関連性評価を強化し,下流ランキングモデルトレーニングのためのデータセット作成品質を向上させる。
論文 参考訳(メタデータ) (2025-04-14T02:35:00Z) - Leveraging Retrieval Augmented Generative LLMs For Automated Metadata Description Generation to Enhance Data Catalogs [1.1957520154275776]
データカタログは、さまざまなデータ資産の収集とアクセスのためのリポジトリとして機能する。
組織内の多くのデータカタログは、資産記述のようなメタデータが不十分なため、検索容易性が制限されている。
本稿では,メタデータ作成に関わる課題について考察し,既存のメタデータコンテンツを活用するという,独特なプロンプト・エンリッチメントの考え方を提案する。
論文 参考訳(メタデータ) (2025-03-12T02:33:33Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Data Race Detection Using Large Language Models [1.0013600887991827]
大規模言語モデル(LLM)は、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略である。
本稿では,工学的手法と微調整的手法を併用した,LLMに基づく新しいデータ競合検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T00:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。