論文の概要: CSMeD: Bridging the Dataset Gap in Automated Citation Screening for
Systematic Literature Reviews
- arxiv url: http://arxiv.org/abs/2311.12474v1
- Date: Tue, 21 Nov 2023 09:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:18:25.751077
- Title: CSMeD: Bridging the Dataset Gap in Automated Citation Screening for
Systematic Literature Reviews
- Title(参考訳): CSMeD:システム文献レビューのための自動サイテーションスクリーニングにおけるデータセットギャップのブリッジ
- Authors: Wojciech Kusa, Oscar E. Mendoza, Matthias Samwald, Petr Knoth, Allan
Hanbury
- Abstract要約: CSMeDは9つの公開コレクションを統合したメタデータセットである。
CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。
我々はCSMeD-FTを導入した。CSMeD-FTは、全文パブリッシュスクリーニングタスクを明示的に評価するために設計された新しいデータセットである。
- 参考スコア(独自算出の注目度): 10.207938863784829
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Systematic literature reviews (SLRs) play an essential role in summarising,
synthesising and validating scientific evidence. In recent years, there has
been a growing interest in using machine learning techniques to automate the
identification of relevant studies for SLRs. However, the lack of standardised
evaluation datasets makes comparing the performance of such automated
literature screening systems difficult. In this paper, we analyse the citation
screening evaluation datasets, revealing that many of the available datasets
are either too small, suffer from data leakage or have limited applicability to
systems treating automated literature screening as a classification task, as
opposed to, for example, a retrieval or question-answering task. To address
these challenges, we introduce CSMeD, a meta-dataset consolidating nine
publicly released collections, providing unified access to 325 SLRs from the
fields of medicine and computer science. CSMeD serves as a comprehensive
resource for training and evaluating the performance of automated citation
screening models. Additionally, we introduce CSMeD-FT, a new dataset designed
explicitly for evaluating the full text publication screening task. To
demonstrate the utility of CSMeD, we conduct experiments and establish
baselines on new datasets.
- Abstract(参考訳): 体系的文献レビュー(SLR)は、科学的証拠の要約、合成、検証において重要な役割を果たす。
近年,SLRの関連研究の同定を自動化する機械学習技術への関心が高まっている。
しかし、標準化された評価データセットがないため、このような自動文献検定システムの性能の比較は困難である。
本稿では,引用スクリーニング評価データセットを分析し,利用可能なデータセットの多くは小さすぎるか,データ漏洩に苦しむか,あるいは検索や質問応答タスクなどとは対照的に,自動文学スクリーニングを分類タスクとして扱うシステムへの適用性が限られていることを明らかにした。
これらの課題に対処するため、CSMeDは9つの公開コレクションを統合し、医学とコンピュータ科学の分野から325個のSLRにアクセスできるようにする。
CSMeDは自動引用スクリーニングモデルの性能を訓練し評価するための総合的なリソースとして機能する。
また,全文出版スクリーニングタスクを明示的に評価するための新しいデータセットcsmed-ftを提案する。
CSMeDの有用性を実証するため,実験を行い,新しいデータセットのベースラインを確立する。
関連論文リスト
- The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - Emerging Results on Automated Support for Searching and Selecting
Evidence for Systematic Literature Review Updates [1.1153433121962064]
本稿では,ソフトウェア工学におけるSLR更新研究の検索と選択を支援する自動手法について述べる。
我々は,機械学習(ML)アルゴリズムを用いて,雪玉探索技術を実行する自動化ツールのプロトタイプを開発し,SLR更新に関する関連する研究を選択することを支援する。
論文 参考訳(メタデータ) (2024-02-07T23:39:20Z) - Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model
System for Answering Medical Questions using Scientific Literature [44.715854387549605]
我々はClinfo.aiをリリースした。Clinfo.aiはオープンソースのWebアプリケーションで、動的に検索された科学的文献に基づいて臨床上の質問に答える。
我々は PubMedRS-200 上で Clinfo.ai および他の公開 OpenQA システムのベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2023-10-24T19:43:39Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。