論文の概要: TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals
- arxiv url: http://arxiv.org/abs/2407.18764v1
- Date: Fri, 26 Jul 2024 14:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:09:10.282521
- Title: TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals
- Title(参考訳): TAGIFY:OGDポータルにおけるデータ検索性向上のためのLCMを利用したタグインタフェース
- Authors: Kevin Kliimask, Anastasija Nikiforova,
- Abstract要約: 本稿では,GPT-3.5-turbo や GPT-4 のような大規模言語モデル (LLM) を用いて,データセットのタグ付けを自動化するタグ付けインタフェースのプロトタイプを提案する。
開発したソリューションはユーザによって評価され,今後のプロトタイプ改善のアジェンダを定義するためにフィードバックが収集された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efforts directed towards promoting Open Government Data (OGD) have gained significant traction across various governmental tiers since the mid-2000s. As more datasets are published on OGD portals, finding specific data becomes harder, leading to information overload. Complete and accurate documentation of datasets, including association of proper tags with datasets is key to improving dataset findability and accessibility. Analysis conducted on the Estonian Open Data Portal, revealed that 11% datasets have no associated tags, while 26% had only one tag assigned to them, which underscores challenges in data findability and accessibility within the portal, which, according to the recent Open Data Maturity Report, is considered trend-setter. The aim of this study is to propose an automated solution to tagging datasets to improve data findability on OGD portals. This paper presents Tagify - a prototype of tagging interface that employs large language models (LLM) such as GPT-3.5-turbo and GPT-4 to automate dataset tagging, generating tags for datasets in English and Estonian, thereby augmenting metadata preparation by data publishers and improving data findability on OGD portals by data users. The developed solution was evaluated by users and their feedback was collected to define an agenda for future prototype improvements.
- Abstract(参考訳): オープン・ガバメント・データ(OGD)の推進に向けた取り組みは、2000年代半ば以降、様々な政府層で大きな注目を集めている。
より多くのデータセットがOGDポータルに公開されるにつれて、特定のデータを見つけることが難しくなり、情報の過負荷につながる。
データセットと適切なタグを関連付けることを含む、データセットの完全かつ正確なドキュメントは、データセットの検索性とアクセシビリティを改善するための鍵である。
エストニアのOpen Data Portalで実施された分析によると、11%のデータセットに関連タグがないのに対して、26%のデータセットには1つのタグだけが割り当てられており、ポータル内のデータ検索可能性とアクセシビリティの課題を浮き彫りにしている。
本研究の目的は、OGDポータルにおけるデータ検索性を改善するために、データセットをタグ付けする自動化ソリューションを提案することである。
本稿では,GPT-3.5-turbo や GPT-4 などの大規模言語モデル (LLM) を利用したタグ付けインタフェースのプロトタイプとして,英語とエストニア語におけるデータセットのタグ生成,データパブリッシャによるメタデータ作成の強化,データユーザによる OGD ポータルにおけるデータ検索性の向上などを提案する。
開発したソリューションはユーザによって評価され,今後のプロトタイプ改善のアジェンダを定義するためにフィードバックが収集された。
関連論文リスト
- Automating the Identification of High-Value Datasets in Open Government Data Portals [0.0]
高価値データセット(HVD)は、より広いOpen Government Data(OGD)ムーブメントにおいて重要な役割を果たす。
OGDポータル上でのHVDの識別は、データ値の微妙な性質のため、リソース集約的で複雑な課題である。
本提案では,ユーザ関心の詳細な分析に基づく定量的アプローチを用いて,OGDポータル上でのHVDの識別を自動化することを目的とする。
論文 参考訳(メタデータ) (2024-06-15T07:54:37Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Navigating Data Heterogeneity in Federated Learning A Semi-Supervised
Federated Object Detection [3.7398615061365206]
フェデレートラーニング(FL)は、分散データソース間でモデルをトレーニングするための強力なフレームワークとして登場した。
特に自動運転のようなアプリケーションでは、高品質なラベルや、IID以外のクライアントデータに制限がある。
クライアントがラベル付きデータを持っている間、ラベル付きデータがサーバにのみ存在するシナリオ用に設計された、先駆的なSSFODフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T01:40:28Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。