論文の概要: MetaEnhance: Metadata Quality Improvement for Electronic Theses and
Dissertations of University Libraries
- arxiv url: http://arxiv.org/abs/2303.17661v1
- Date: Thu, 30 Mar 2023 18:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:03:53.831432
- Title: MetaEnhance: Metadata Quality Improvement for Electronic Theses and
Dissertations of University Libraries
- Title(参考訳): MetaEnhance: 大学図書館の電子資料・論文のメタデータ品質改善
- Authors: Muntabir Hasan Choudhury, Lamia Salsabil, Himarsha R. Jayanetti, Jian
Wu, William A. Ingram, Edward A. Fox
- Abstract要約: 本研究では,学術メタデータの自動検出,正当化,正準化を行う手法について検討する。
本稿では、最先端の人工知能手法を用いて、これらの分野の質を向上させるためのフレームワークであるMetaEnhanceを提案する。
- 参考スコア(独自算出の注目度): 3.5761273302956282
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Metadata quality is crucial for digital objects to be discovered through
digital library interfaces. However, due to various reasons, the metadata of
digital objects often exhibits incomplete, inconsistent, and incorrect values.
We investigate methods to automatically detect, correct, and canonicalize
scholarly metadata, using seven key fields of electronic theses and
dissertations (ETDs) as a case study. We propose MetaEnhance, a framework that
utilizes state-of-the-art artificial intelligence methods to improve the
quality of these fields. To evaluate MetaEnhance, we compiled a metadata
quality evaluation benchmark containing 500 ETDs, by combining subsets sampled
using multiple criteria. We tested MetaEnhance on this benchmark and found that
the proposed methods achieved nearly perfect F1-scores in detecting errors and
F1-scores in correcting errors ranging from 0.85 to 1.00 for five of seven
fields.
- Abstract(参考訳): メタデータの品質は、デジタルライブラリインタフェースを通してデジタルオブジェクトを発見するために不可欠である。
しかし、様々な理由から、デジタルオブジェクトのメタデータは不完全、矛盾、誤った値を示すことが多い。
本研究では,学術メタデータの自動検出,正当化,正準化を行う手法について,電子的情報・論文の7分野(ETD)を事例として検討する。
本稿では,最先端の人工知能手法を用いて,これらの分野の品質を向上させるためのフレームワークであるmetaenhanceを提案する。
メタエンハンスを評価するために,500個のETDを含むメタデータ品質評価ベンチマークを,複数の基準でサンプリングしたサブセットを組み合わせてコンパイルした。
このベンチマークでMetaEnhanceを検証したところ,提案手法は5つのフィールドのうち0.85から1.00の誤差を検出できるF1スコアとF1スコアをほぼ完璧に検出できることがわかった。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文 参考訳(メタデータ) (2024-04-08T22:29:53Z) - Enhanced Meta Label Correction for Coping with Label Corruption [3.6804038214708577]
本稿では,雑音ラベル問題を用いた学習のための拡張メタラベル補正手法を提案する。
TraditionalCは従来のアプローチより優れており、すべての標準ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-22T12:11:07Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文 参考訳(メタデータ) (2022-09-14T00:45:49Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Automatic Metadata Extraction Incorporating Visual Features from Scanned
Electronic Theses and Dissertations [3.1354625918296612]
Electronic Theses と (ETD) には、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。
従来のシーケンスタグ法は主にテキストベースの機能に依存している。
テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T14:59:18Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Quality Prediction of Open Educational Resources A Metadata-based
Approach [0.0]
メタデータは、レコメンデーションや検索といった高品質なサービスを提供する上で重要な役割を担います。
我々はOERメタデータスコアリングモデルを提案し,OERの品質を予測できるメタデータベースの予測モデルを構築した。
データとモデルに基づいて、F1スコア94.6%の高品質なOERを検出できた。
論文 参考訳(メタデータ) (2020-05-21T09:53:43Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。