論文の概要: [Citation needed] Data usage and citation practices in medical imaging
conferences
- arxiv url: http://arxiv.org/abs/2402.03003v1
- Date: Mon, 5 Feb 2024 13:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:56:25.683683
- Title: [Citation needed] Data usage and citation practices in medical imaging
conferences
- Title(参考訳): [要求]医療画像会議におけるデータ利用と引用の実践
- Authors: Th\'eo Sourget, Ahmet Akko\c{c}, Stinna Winther, Christine Lyngbye
Galsgaard, Amelia Jim\'enez-S\'anchez, Dovile Juodelyte, Caroline Petitjean,
Veronika Cheplygina
- Abstract要約: データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。
本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
- 参考スコア(独自算出の注目度): 2.0551097461599297
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical imaging papers often focus on methodology, but the quality of the
algorithms and the validity of the conclusions are highly dependent on the
datasets used. As creating datasets requires a lot of effort, researchers often
use publicly available datasets, there is however no adopted standard for
citing the datasets used in scientific papers, leading to difficulty in
tracking dataset usage. In this work, we present two open-source tools we
created that could help with the detection of dataset usage, a pipeline
\url{https://github.com/TheoSourget/Public_Medical_Datasets_References} using
OpenAlex and full-text analysis, and a PDF annotation software
\url{https://github.com/TheoSourget/pdf_annotator} used in our study to
manually label the presence of datasets. We applied both tools on a study of
the usage of 20 publicly available medical datasets in papers from MICCAI and
MIDL. We compute the proportion and the evolution between 2013 and 2023 of 3
types of presence in a paper: cited, mentioned in the full text, cited and
mentioned. Our findings demonstrate the concentration of the usage of a limited
set of datasets. We also highlight different citing practices, making the
automation of tracking difficult.
- Abstract(参考訳): 医用イメージング論文は、しばしば方法論に焦点を当てるが、アルゴリズムの品質と結論の妥当性は、使用するデータセットに大きく依存する。
データセットの作成には多くの労力を要するため、研究者は一般に利用可能なデータセットを使用することが多いが、科学論文で使用されるデータセットを引用するための標準は採用されていない。
本研究では,openalex と全文解析を用いたパイプライン \url{https://github.com/theosourget/public_medical_datasets_references} と,データ集合の存在を手作業でラベル付けするためのpdfアノテーションソフトウェア \url{https://github.com/theosourget/pdf_annotator} という2つのオープンソースツールを提案する。
両ツールをMICCAIおよびMIDLの論文における20の公開医療データセットの使用状況調査に応用した。
論文では、2013年から2023年にかけての3種類のプレゼンスの割合と進化を計算している。
その結果,限られたデータセットの利用が集中していることが判明した。
また、さまざまな引用プラクティスを強調し、トラッキングの自動化を難しくしています。
関連論文リスト
- A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - Utilizing Out-Domain Datasets to Enhance Multi-Task Citation Analysis [4.526582372434088]
引用感情分析は、データセットアノテーションの不足と膨大なコストの両方に悩まされている。
モデルパフォーマンスを向上させるため、トレーニング中のドメイン外データの影響について検討する。
本稿では,感情分析と意図分析を対象とする,エンドツーエンドのトレーニング可能なマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-02-22T13:33:48Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。