Fugu-MT 論文翻訳(概要): [Citation needed] Data usage and citation practices in medical imaging conferences

論文の概要: [Citation needed] Data usage and citation practices in medical imaging conferences

arxiv url: http://arxiv.org/abs/2402.03003v1
Date: Mon, 5 Feb 2024 13:41:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 15:56:25.683683
Title: [Citation needed] Data usage and citation practices in medical imaging conferences
Title（参考訳）: [要求]医療画像会議におけるデータ利用と引用の実践
Authors: Th\'eo Sourget, Ahmet Akko\c{c}, Stinna Winther, Christine Lyngbye Galsgaard, Amelia Jim\'enez-S\'anchez, Dovile Juodelyte, Caroline Petitjean, Veronika Cheplygina
Abstract要約: データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
参考スコア（独自算出の注目度）: 2.0551097461599297
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medical imaging papers often focus on methodology, but the quality of the algorithms and the validity of the conclusions are highly dependent on the datasets used. As creating datasets requires a lot of effort, researchers often use publicly available datasets, there is however no adopted standard for citing the datasets used in scientific papers, leading to difficulty in tracking dataset usage. In this work, we present two open-source tools we created that could help with the detection of dataset usage, a pipeline \url{https://github.com/TheoSourget/Public_Medical_Datasets_References} using OpenAlex and full-text analysis, and a PDF annotation software \url{https://github.com/TheoSourget/pdf_annotator} used in our study to manually label the presence of datasets. We applied both tools on a study of the usage of 20 publicly available medical datasets in papers from MICCAI and MIDL. We compute the proportion and the evolution between 2013 and 2023 of 3 types of presence in a paper: cited, mentioned in the full text, cited and mentioned. Our findings demonstrate the concentration of the usage of a limited set of datasets. We also highlight different citing practices, making the automation of tracking difficult.
Abstract（参考訳）: 医用イメージング論文は、しばしば方法論に焦点を当てるが、アルゴリズムの品質と結論の妥当性は、使用するデータセットに大きく依存する。データセットの作成には多くの労力を要するため、研究者は一般に利用可能なデータセットを使用することが多いが、科学論文で使用されるデータセットを引用するための標準は採用されていない。本研究では,openalex と全文解析を用いたパイプライン \url{https://github.com/theosourget/public_medical_datasets_references} と,データ集合の存在を手作業でラベル付けするためのpdfアノテーションソフトウェア \url{https://github.com/theosourget/pdf_annotator} という2つのオープンソースツールを提案する。両ツールをMICCAIおよびMIDLの論文における20の公開医療データセットの使用状況調査に応用した。論文では、2013年から2023年にかけての3種類のプレゼンスの割合と進化を計算している。その結果,限られたデータセットの利用が集中していることが判明した。また、さまざまな引用プラクティスを強調し、トラッキングの自動化を難しくしています。

関連論文リスト

Eye-Tracking-while-Reading: A Living Survey of Datasets with Open Library Support [5.162965495020878]
視線追跡時コーパスは多くの異なる分野において貴重な資源である。既存のデータセットに関して、透明性と明確性の向上を目指しています。
論文参考訳（メタデータ） (2026-02-23T08:40:50Z)
Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays [0.0]
我々は、人気のあるオープンソースの胸部X線データセットに適用されるのと同じタスクを再考する。データセットに単純な変換を適用し、同じタスクを繰り返し、検出されたバイアスを特定して説明するための分析を行う。 NIH、CheXpert、MIMIC-CXR、PadChestなど、さまざまなネットワークアーキテクチャをデータセット上に実装しています。
論文参考訳（メタデータ） (2025-07-10T12:57:09Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
In the Picture: Medical Imaging Datasets, Artifacts, and their Living Review [18.178774133733686]
本稿では,複数の医用画像アプリケーションにまたがる公開データセットとその関連研究成果を継続的に追跡するリビングレビューを提案する。医用画像データセットの作成に関する重要な考察、データアノテーションのベストプラクティスの見直し、ショートカットの重要性と人口分布の多様性について議論し、ライフサイクル全体を通してデータセットを管理することの重要性を強調する。
論文参考訳（メタデータ） (2025-01-18T11:03:59Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文参考訳（メタデータ） (2024-09-18T14:13:24Z)
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文参考訳（メタデータ） (2024-04-04T10:09:28Z)
A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文参考訳（メタデータ） (2024-01-30T17:06:25Z)
Interactive Distillation of Large Single-Topic Corpora of Scientific Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文参考訳（メタデータ） (2023-09-19T17:18:36Z)
Replication: Contrastive Learning and Data Augmentation in Traffic Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文参考訳（メタデータ） (2023-09-18T12:55:09Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Going beyond research datasets: Novel intent discovery in the industry setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。ドメイン内データに基づく事前学習型言語モデルの利点を示す。また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文参考訳（メタデータ） (2023-05-09T14:21:29Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
Machine Identification of High Impact Research through Text and Image Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文参考訳（メタデータ） (2020-05-20T19:12:24Z)
Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。 OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文参考訳（メタデータ） (2020-05-02T03:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。