Fugu-MT 論文翻訳(概要): Making Metadata More FAIR Using Large Language Models

論文の概要: Making Metadata More FAIR Using Large Language Models

arxiv url: http://arxiv.org/abs/2307.13085v1
Date: Mon, 24 Jul 2023 19:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 19:01:38.105248
Title: Making Metadata More FAIR Using Large Language Models
Title（参考訳）: 大規模言語モデルによるメタデータの公平化
Authors: Sowmya S. Sundaram, Mark A. Musen
Abstract要約: この作業では、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。このソフトウェアは、同じトピックに関するいくつかの実験データセットを使用しながら、さまざまな自然言語メタデータを精査する際の人的労力を大幅に削減することができる。
参考スコア（独自算出の注目度）: 2.61630828688114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the global increase in experimental data artifacts, harnessing them in a unified fashion leads to a major stumbling block - bad metadata. To bridge this gap, this work presents a Natural Language Processing (NLP) informed application, called FAIRMetaText, that compares metadata. Specifically, FAIRMetaText analyzes the natural language descriptions of metadata and provides a mathematical similarity measure between two terms. This measure can then be utilized for analyzing varied metadata, by suggesting terms for compliance or grouping similar terms for identification of replaceable terms. The efficacy of the algorithm is presented qualitatively and quantitatively on publicly available research artifacts and demonstrates large gains across metadata related tasks through an in-depth study of a wide variety of Large Language Models (LLMs). This software can drastically reduce the human effort in sifting through various natural language metadata while employing several experimental datasets on the same topic.
Abstract（参考訳）: 実験的なデータアーティファクトの世界的な増加に伴い、それらを統一した方法で利用すると、大きな障害となる。このギャップを埋めるために、この研究は、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。この尺度は、様々なメタデータの分析、コンプライアンス用語の提案、置換可能な用語の識別のための類似用語の分類に利用できる。アルゴリズムの有効性は、公開可能な研究成果物に対して質的かつ定量的に示され、幅広い言語モデル(LLM)の詳細な研究を通して、メタデータに関連するタスク間で大きな利益を示す。このソフトウェアは、複数の実験データセットを同じトピックに使用しながら、さまざまな自然言語メタデータをふるいにかける人の労力を大幅に削減することができる。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Metaphor and Large Language Models: When Surface Features Matter More than Deep Understanding [6.0158981171030685]
本稿では,複数のデータセット,タスク,プロンプト構成にまたがるメタファ解釈において,LLM(Large Language Models)の能力を包括的に評価する。推論とメタファアノテーションを備えた多種多様な公開データセットを用いて、広範な実験を行うことにより、これらの制限に対処する。その結果,LLMの性能は比喩的内容よりも語彙的重複や文長などの特徴に影響されていることが示唆された。
論文参考訳（メタデータ） (2025-07-21T08:09:11Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
Comparison of Feature Learning Methods for Metadata Extraction from PDF Scholarly Documents [8.516310581591426]
本研究では,自然言語処理(NLP)やコンピュータビジョン(CV),マルチモーダルアプローチなど,さまざまな特徴学習と予測手法を評価し,テンプレートのばらつきが高い文書からメタデータを抽出する。我々は,学術文書のアクセシビリティの向上と,それらの広範な利用を促進することを目的としている。
論文参考訳（メタデータ） (2025-01-09T09:03:43Z)
Scholar Name Disambiguation with Search-enhanced LLM Across Language [0.2302001830524133]
本稿では,複数の言語にまたがる検索強化言語モデルを用いて,名前の曖昧さを改善する手法を提案する。検索エンジンの強力なクエリ書き換え、意図認識、およびデータインデックス機能を利用することで、エンティティの識別やプロファイルの抽出を行うため、よりリッチな情報を集めることができる。
論文参考訳（メタデータ） (2024-11-26T04:39:46Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity [0.0]
既存のデータセットは構文と語彙の多様性に欠けており、結果として原文によく似たパラフレーズが生じる。本研究では,Large Language Models (LLM) を用いた大規模かつ高品質な英語パラフレーズデータセットであるParaFusionを紹介する。 ParaFusionは、高品質なデータで既存のデータセットを拡張し、語彙と構文の多様性を著しく向上し、セマンティックな類似性を維持している。
論文参考訳（メタデータ） (2024-04-18T09:02:45Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
Always Keep your Target in Mind: Studying Semantics and Improving Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-06-07T16:16:19Z)
Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。 3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文参考訳（メタデータ） (2021-12-07T06:58:22Z)
Multimodal Approach for Metadata Extraction from German Scientific Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文参考訳（メタデータ） (2021-11-10T15:19:04Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
A Comparative Study of Lexical Substitution Approaches based on Neural Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文参考訳（メタデータ） (2020-05-29T18:43:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。