論文の概要: Analyzing Cancer Patients' Experiences with Embedding-based Topic Modeling and LLMs
- arxiv url: http://arxiv.org/abs/2601.12154v1
- Date: Sat, 17 Jan 2026 20:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.48795
- Title: Analyzing Cancer Patients' Experiences with Embedding-based Topic Modeling and LLMs
- Title(参考訳): 埋め込み型トピックモデリングとLCMを用いたがん患者の経験分析
- Authors: Teodor-Călin Ionescu, Lifeng Han, Jan Heijdra Suasnabar, Anne Stiggelbout, Suzan Verberne,
- Abstract要約: 本研究では,患者ストーリーテリングデータから意味のあるテーマを明らかにするために,ニューラルトピックモデリングとLLMを用いた。
我々は,がん患者への書面によるインタビューの収集を分析した。
- 参考スコア(独自算出の注目度): 10.268667230396058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study investigates the use of neural topic modeling and LLMs to uncover meaningful themes from patient storytelling data, to offer insights that could contribute to more patient-oriented healthcare practices. We analyze a collection of transcribed interviews with cancer patients (132,722 words in 13 interviews). We first evaluate BERTopic and Top2Vec for individual interview summarization by using similar preprocessing, chunking, and clustering configurations to ensure a fair comparison on Keyword Extraction. LLMs (GPT4) are then used for the next step topic labeling. Their outputs for a single interview (I0) are rated through a small-scale human evaluation, focusing on {coherence}, {clarity}, and {relevance}. Based on the preliminary results and evaluation, BERTopic shows stronger performance and is selected for further experimentation using three {clinically oriented embedding} models. We then analyzed the full interview collection with the best model setting. Results show that domain-specific embeddings improved topic \textit{precision} and \textit{interpretability}, with BioClinicalBERT producing the most consistent results across transcripts. The global analysis of the full dataset of 13 interviews, using the BioClinicalBERT embedding model, reveals the most dominant topics throughout all 13 interviews, namely ``Coordination and Communication in Cancer Care Management" and ``Patient Decision-Making in Cancer Treatment Journey''. Although the interviews are machine translations from Dutch to English, and clinical professionals are not involved in this evaluation, the findings suggest that neural topic modeling, particularly BERTopic, can help provide useful feedback to clinicians from patient interviews. This pipeline could support more efficient document navigation and strengthen the role of patients' voices in healthcare workflows.
- Abstract(参考訳): 本研究では、患者ストーリーテリングデータから有意義なテーマを明らかにするために、ニューラルトピックモデリングとLLMを使用して、より患者指向の医療実践に寄与する洞察を提供する。
本研究は,がん患者132,722語(132,722語)を対象に,書き起こされたインタビューの集合を分析した。
まず,BERTopicとTop2Vecを,類似の事前処理,チャンキング,クラスタリング構成を用いて個別のインタビュー要約のために評価し,キーワード抽出における公正な比較を確実にする。
LLM (GPT4) は次のステップのトピックラベリングに使用される。
単一のインタビュー(I0)のアウトプットは、小さな人間の評価を通じて評価され、コヒーレンス、明確性、関連性に焦点が当てられている。
予備結果と評価に基づいて,BERTopicはより優れた性能を示し,さらに3つの<clinically-oriented embedded}モデルを用いて実験を行う。
次に、最高のモデル設定でインタビューの全コレクションを分析しました。
その結果、ドメイン固有の埋め込みにより、トピック \textit{precision} と \textit{interpretability} が改善された。
BioClinicalBERT埋め込みモデルを用いた13のインタビューの全データセットのグローバル分析では、13のインタビューの中でもっとも優勢なトピックが明らかにされている。
インタビューはオランダ語から英語への機械翻訳であり、臨床専門家はこの評価には関与していないが、神経トピックモデリング、特にBERTopicは、患者インタビューから臨床医に有用なフィードバックを提供することができることを示唆している。
このパイプラインは、より効率的なドキュメントナビゲーションをサポートし、医療ワークフローにおける患者の声の役割を強化することができる。
関連論文リスト
- Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design [23.21070690395588]
患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
論文 参考訳(メタデータ) (2025-10-31T15:08:18Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Demo: Healthcare Agent Orchestrator (HAO) for Patient Summarization in Molecular Tumor Boards [7.69748973216707]
分子腫瘍ボード(MTB)の正確かつ包括的な患者要約を生成するための医療エージェントオーケストラ(HAO)について紹介する。
予測された患者要約を真実に対して評価することは、様式的変動、順序付け、同義語の使用、表現の違いによる追加的な課題を提示する。
本稿では,生成された要約の包括性と簡潔さを評価するためのモデル・アズ・ア・ジャッジのフレームワークTBFactを提案する。
論文 参考訳(メタデータ) (2025-09-08T12:15:53Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - CLINICSUM: Utilizing Language Models for Generating Clinical Summaries from Patient-Doctor Conversations [2.77462589810782]
クリニックサムは、患者と医師の会話から臨床要約を自動的に生成するように設計されたフレームワークである。
自動測定(ROUGE、BERTScoreなど)と専門家による評価によって評価される。
論文 参考訳(メタデータ) (2024-12-05T15:34:02Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Generating medically-accurate summaries of patient-provider dialogue: A
multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。
本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文 参考訳(メタデータ) (2023-05-10T08:48:53Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。