論文の概要: Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models
- arxiv url: http://arxiv.org/abs/2404.05893v4
- Date: Thu, 29 Aug 2024 21:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:01:42.688406
- Title: Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models
- Title(参考訳): 構造化知識ベースを用いた大規模言語モデルによるメタデータのキュレーション
- Authors: Sowmya S. Sundaram, Benjamin Solomon, Avani Khatri, Anisha Laumas, Purvesh Khatri, Mark A. Musen,
- Abstract要約: メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
- 参考スコア(独自算出の注目度): 2.186740861187042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metadata play a crucial role in ensuring the findability, accessibility, interoperability, and reusability of datasets. This paper investigates the potential of large language models (LLMs), specifically GPT-4, to improve adherence to metadata standards. We conducted experiments on 200 random data records describing human samples relating to lung cancer from the NCBI BioSample repository, evaluating GPT-4's ability to suggest edits for adherence to metadata standards. We computed the adherence accuracy of field name-field value pairs through a peer review process, and we observed a marginal average improvement in adherence to the standard data dictionary from 79% to 80% (p<0.5). We then prompted GPT-4 with domain information in the form of the textual descriptions of CEDAR templates and recorded a significant improvement to 97% from 79% (p<0.01). These results indicate that, while LLMs may not be able to correct legacy metadata to ensure satisfactory adherence to standards when unaided, they do show promise for use in automated metadata curation when integrated with a structured knowledge base
- Abstract(参考訳): メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル(LLM),特に GPT-4 の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを記載した200件のランダムなデータ記録について実験を行い,GPT-4のメタデータ標準に準拠した編集を提案する能力について検討した。
ピアレビュープロセスによりフィールド名-フィールド値ペアのアテンデンス精度を算出し,標準データ辞書のアテンデンスを79%から80%(p<0.5。
CEDARテンプレートのテキスト記述形式でGPT-4を誘導し,79% (p<0.01。
以上の結果から,LCMはレガシメタデータの修正ができず,標準に忠実に適合することが確認できないが,構造化知識ベースと統合した場合に,メタデータの自動キュレーションでの使用が期待できることを示す。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4 [2.54365580380609]
グラフデータにおけるプライバシとユーティリティのトレードオフを含むシナリオに対する大規模言語モデル(LLM)の適用について検討する。
提案手法では,データポイントをテキスト形式に変換して GPT-4 を促進させるとともに,正確な衛生指示をゼロショットで含める。
この比較的単純なアプローチは、プライバシとユーティリティのトレードオフを管理するために使われる、より複雑な逆最適化手法に匹敵するパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-07T19:02:50Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - KERMIT: Knowledge Graph Completion of Enhanced Relation Modeling with Inverse Transformation [19.31783654838732]
大規模言語モデルを用いてコヒーレントな記述を生成し,クエリと回答のセマンティックなギャップを埋める。
また、逆関係を利用して対称グラフを作成し、KGCのための強化トレーニングサンプルを提供する。
提案手法は,WN18RRではHit@1が4.2%,FB15k-237ではHit@3が3.4%向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-26T09:03:25Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - MetaEnhance: Metadata Quality Improvement for Electronic Theses and
Dissertations of University Libraries [3.5761273302956282]
本研究では,学術メタデータの自動検出,正当化,正準化を行う手法について検討する。
本稿では、最先端の人工知能手法を用いて、これらの分野の質を向上させるためのフレームワークであるMetaEnhanceを提案する。
論文 参考訳(メタデータ) (2023-03-30T18:56:42Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Regularizing Models via Pointwise Mutual Information for Named Entity
Recognition [17.767466724342064]
ドメイン内での性能を向上しつつ、一般化能力を高めるために、PMI(Pointwise Mutual Information)を提案する。
提案手法により,ベンチマークデータセットの単語とラベルの相関度を高く抑えることができる。
長い名前と複雑な構造を持つエンティティに対して、これらのエンティティは協調的あるいは特別な文字の偏りによって予測できる。
論文 参考訳(メタデータ) (2021-04-15T05:47:27Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。