論文の概要: Making Metadata More FAIR Using Large Language Models
- arxiv url: http://arxiv.org/abs/2307.13085v1
- Date: Mon, 24 Jul 2023 19:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:01:38.105248
- Title: Making Metadata More FAIR Using Large Language Models
- Title(参考訳): 大規模言語モデルによるメタデータの公平化
- Authors: Sowmya S. Sundaram, Mark A. Musen
- Abstract要約: この作業では、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。
特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。
このソフトウェアは、同じトピックに関するいくつかの実験データセットを使用しながら、さまざまな自然言語メタデータを精査する際の人的労力を大幅に削減することができる。
- 参考スコア(独自算出の注目度): 2.61630828688114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the global increase in experimental data artifacts, harnessing them in a
unified fashion leads to a major stumbling block - bad metadata. To bridge this
gap, this work presents a Natural Language Processing (NLP) informed
application, called FAIRMetaText, that compares metadata. Specifically,
FAIRMetaText analyzes the natural language descriptions of metadata and
provides a mathematical similarity measure between two terms. This measure can
then be utilized for analyzing varied metadata, by suggesting terms for
compliance or grouping similar terms for identification of replaceable terms.
The efficacy of the algorithm is presented qualitatively and quantitatively on
publicly available research artifacts and demonstrates large gains across
metadata related tasks through an in-depth study of a wide variety of Large
Language Models (LLMs). This software can drastically reduce the human effort
in sifting through various natural language metadata while employing several
experimental datasets on the same topic.
- Abstract(参考訳): 実験的なデータアーティファクトの世界的な増加に伴い、それらを統一した方法で利用すると、大きな障害となる。
このギャップを埋めるために、この研究は、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。
特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。
この尺度は、様々なメタデータの分析、コンプライアンス用語の提案、置換可能な用語の識別のための類似用語の分類に利用できる。
アルゴリズムの有効性は、公開可能な研究成果物に対して質的かつ定量的に示され、幅広い言語モデル(LLM)の詳細な研究を通して、メタデータに関連するタスク間で大きな利益を示す。
このソフトウェアは、複数の実験データセットを同じトピックに使用しながら、さまざまな自然言語メタデータをふるいにかける人の労力を大幅に削減することができる。
関連論文リスト
- Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Metadata Shaping: Natural Language Annotations for the Tail [4.665656172490747]
言語モデル(LM)は目覚ましい進歩を遂げているが、訓練データから稀な言語パターンへの一般化に苦慮している。
本稿では,情報理論の指標に基づく例に,エンティティ記述やカテゴリタグなどの手軽に利用できるメタデータを付加する手法を提案する。
LMの変更はないが、メタデータの整形はBERTベースラインを5.3F1ポイントまで越え、最先端の結果と競合する。
論文 参考訳(メタデータ) (2021-10-16T01:00:47Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。