論文の概要: Making Metadata More FAIR Using Large Language Models
- arxiv url: http://arxiv.org/abs/2307.13085v1
- Date: Mon, 24 Jul 2023 19:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:01:38.105248
- Title: Making Metadata More FAIR Using Large Language Models
- Title(参考訳): 大規模言語モデルによるメタデータの公平化
- Authors: Sowmya S. Sundaram, Mark A. Musen
- Abstract要約: この作業では、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。
特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。
このソフトウェアは、同じトピックに関するいくつかの実験データセットを使用しながら、さまざまな自然言語メタデータを精査する際の人的労力を大幅に削減することができる。
- 参考スコア(独自算出の注目度): 2.61630828688114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the global increase in experimental data artifacts, harnessing them in a
unified fashion leads to a major stumbling block - bad metadata. To bridge this
gap, this work presents a Natural Language Processing (NLP) informed
application, called FAIRMetaText, that compares metadata. Specifically,
FAIRMetaText analyzes the natural language descriptions of metadata and
provides a mathematical similarity measure between two terms. This measure can
then be utilized for analyzing varied metadata, by suggesting terms for
compliance or grouping similar terms for identification of replaceable terms.
The efficacy of the algorithm is presented qualitatively and quantitatively on
publicly available research artifacts and demonstrates large gains across
metadata related tasks through an in-depth study of a wide variety of Large
Language Models (LLMs). This software can drastically reduce the human effort
in sifting through various natural language metadata while employing several
experimental datasets on the same topic.
- Abstract(参考訳): 実験的なデータアーティファクトの世界的な増加に伴い、それらを統一した方法で利用すると、大きな障害となる。
このギャップを埋めるために、この研究は、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。
特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。
この尺度は、様々なメタデータの分析、コンプライアンス用語の提案、置換可能な用語の識別のための類似用語の分類に利用できる。
アルゴリズムの有効性は、公開可能な研究成果物に対して質的かつ定量的に示され、幅広い言語モデル(LLM)の詳細な研究を通して、メタデータに関連するタスク間で大きな利益を示す。
このソフトウェアは、複数の実験データセットを同じトピックに使用しながら、さまざまな自然言語メタデータをふるいにかける人の労力を大幅に削減することができる。
関連論文リスト
- Scholar Name Disambiguation with Search-enhanced LLM Across Language [0.2302001830524133]
本稿では,複数の言語にまたがる検索強化言語モデルを用いて,名前の曖昧さを改善する手法を提案する。
検索エンジンの強力なクエリ書き換え、意図認識、およびデータインデックス機能を利用することで、エンティティの識別やプロファイルの抽出を行うため、よりリッチな情報を集めることができる。
論文 参考訳(メタデータ) (2024-11-26T04:39:46Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity [0.0]
既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。
本研究では,Large Language Models (LLM) を用いた大規模かつ高品質な英語パラフレーズデータセットであるParaFusionを紹介する。
ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。
論文 参考訳(メタデータ) (2024-04-18T09:02:45Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。