論文の概要: Computationally Efficient Labeling of Cancer Related Forum Posts by
Non-Clinical Text Information Retrieval
- arxiv url: http://arxiv.org/abs/2303.16766v1
- Date: Fri, 24 Mar 2023 13:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:51:42.678613
- Title: Computationally Efficient Labeling of Cancer Related Forum Posts by
Non-Clinical Text Information Retrieval
- Title(参考訳): 非クリニカルテキスト情報検索による癌関連フォーラムポストの効率的なラベル付け
- Authors: Jimmi Agerskov, Kristian Nielsen, Christian Marius Lillelund,
Christian Fischer Pedersen
- Abstract要約: 本研究では,分散コンピューティング,テキスト検索,クラスタリング,分類の手法を,一貫性と計算効率の両立したシステムに組み合わせた。
我々は,非クリニカルフォーラムポストから癌軌跡情報を検索し,収集し,提示できる完全機能プロトタイプを作成した。
適切な推定半径で、MR-DBSCANは、DBSCAN (143.4) や HDBSCAN (282.3) と比較して、50000のフォーラムポストを46.1秒でクラスタリングすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An abundance of information about cancer exists online, but categorizing and
extracting useful information from it is difficult. Almost all research within
healthcare data processing is concerned with formal clinical data, but there is
valuable information in non-clinical data too. The present study combines
methods within distributed computing, text retrieval, clustering, and
classification into a coherent and computationally efficient system, that can
clarify cancer patient trajectories based on non-clinical and freely available
information. We produce a fully-functional prototype that can retrieve, cluster
and present information about cancer trajectories from non-clinical forum
posts. We evaluate three clustering algorithms (MR-DBSCAN, DBSCAN, and HDBSCAN)
and compare them in terms of Adjusted Rand Index and total run time as a
function of the number of posts retrieved and the neighborhood radius.
Clustering results show that neighborhood radius has the most significant
impact on clustering performance. For small values, the data set is split
accordingly, but high values produce a large number of possible partitions and
searching for the best partition is hereby time-consuming. With a proper
estimated radius, MR-DBSCAN can cluster 50000 forum posts in 46.1 seconds,
compared to DBSCAN (143.4) and HDBSCAN (282.3). We conduct an interview with
the Danish Cancer Society and present our software prototype. The organization
sees a potential in software that can democratize online information about
cancer and foresee that such systems will be required in the future.
- Abstract(参考訳): 癌に関する情報はオンラインで豊富に存在するが、有用な情報を分類し抽出することは困難である。
医療データ処理における研究のほとんどは、正式な臨床データに関するものだが、非臨床データにも貴重な情報がある。
本研究は, 分散コンピューティング, テキスト検索, クラスタリング, 分類の手法をコヒーレントかつ計算効率の良いシステムに統合し, 非臨床的かつ自由に利用可能な情報に基づいて癌患者の軌跡を明らかにする。
我々は,非クリニカルフォーラムポストから癌軌跡情報を検索し,収集し,提示できる完全機能プロトタイプを作成した。
我々は3つのクラスタリングアルゴリズム (MR-DBSCAN, DBSCAN, HDBSCAN) を評価し, 得られたポスト数と近傍半径の関数として, 調整された乱数指数と総実行時間を比較した。
クラスタリングの結果は, 周辺半径がクラスタリング性能に最も大きな影響を与えることを示している。
小さな値の場合、データセットはそれに従って分割されるが、高い値は多数のパーティションを生成し、最適なパーティションを探すのに時間を要する。
適切な推定半径で、MR-DBSCANは、DBSCAN (143.4) や HDBSCAN (282.3) と比較して、50000のフォーラムポストを46.1秒でクラスタリングすることができる。
デンマーク癌学会とインタビューを行い,ソフトウェアプロトタイプについて紹介する。
この組織は、がんに関するオンライン情報を民主化し、そのようなシステムが将来必要となると予測できるソフトウェアの可能性を見込んでいる。
関連論文リスト
- Automatic Organ and Pan-cancer Segmentation in Abdomen CT: the FLARE 2023 Challenge [15.649976310277099]
腹部CT検査における臓器・癌の分節化は,正確な癌診断と治療の必要条件である。
既存のベンチマークやアルゴリズムは、特定のがんタイプに合わせて調整されており、包括的ながん分析を提供する能力を制限する。
この研究は、大規模で多様なデータセットを提供することにより、腹部臓器と膵臓の分節に関する最初の国際コンペティションである。
論文 参考訳(メタデータ) (2024-08-22T16:38:45Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - A Lung Nodule Dataset with Histopathology-based Cancer Type Annotation [12.617587827105496]
本研究は,医療診断用データセットと信頼性ツールを提供することにより,このギャップを埋めることを目的としている。
330個の注記結節(結節は束縛箱とラベル付けされている)を95名の別患者から抽出し,CT画像の多彩なデータセットを収集した。
これらの有望な結果は、データセットが実現可能であり、さらにインテリジェントな補助診断を容易にすることを証明している。
論文 参考訳(メタデータ) (2024-06-26T06:39:11Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - Graph Neural Networks for Breast Cancer Data Integration [0.0]
本稿では,ガンデータモダリティをグラフとして統合し,次にグラフニューラルネットワークを適用する3つのステップからなる新しい学習パイプラインを提案する。
このプロジェクトは、がんデータ理解を改善する可能性があり、正規データセットからグラフ型データへの移行を促進する。
論文 参考訳(メタデータ) (2022-11-28T17:10:19Z) - Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。
このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。
このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文 参考訳(メタデータ) (2022-08-09T04:40:11Z) - Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of
Heart Failure Patients [50.48904066814385]
本研究では、深層半教師付き組込みクラスタリングを用いて、心不全のデータ駆動型患者サブグループを決定する。
ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。
提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができる。
論文 参考訳(メタデータ) (2020-12-24T12:56:46Z) - Topological Data Analysis of copy number alterations in cancer [70.85487611525896]
癌ゲノム情報に含まれる情報を新しいトポロジに基づくアプローチで捉える可能性を探る。
本手法は, 癌体性遺伝データに有意な低次元表現を抽出する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-22T17:31:23Z) - A Study of Deep Learning Colon Cancer Detection in Limited Data Access
Scenarios [6.338265282525758]
分類と検出のためのディープラーニング手法は、大きな可能性を示しているが、多くの場合、大量のトレーニングデータを必要とする。
多くのがんタイプにおいて、データの不足はDLモデルをトレーニングするための障壁を生み出す。
リンパ節データが少ない,あるいはほとんどない癌転移を検出できることを示し,既存の注釈組織学的データが他の領域に一般化できる可能性を示した。
論文 参考訳(メタデータ) (2020-05-20T19:28:07Z) - VerSe: A Vertebrae Labelling and Segmentation Benchmark for
Multi-detector CT Images [121.31355003451152]
大規模Vertebrae Challenge(VerSe)は、2019年と2020年に開催されたMICCAI(International Conference on Medical Image Computing and Computer Assisted Intervention)と共同で設立された。
本評価の結果を報告するとともに,脊椎レベル,スキャンレベル,および異なる視野での性能変化について検討した。
論文 参考訳(メタデータ) (2020-01-24T21:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。