論文の概要: ctELM: Decoding and Manipulating Embeddings of Clinical Trials with Embedding Language Models
- arxiv url: http://arxiv.org/abs/2601.18796v1
- Date: Mon, 26 Jan 2026 18:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.029242
- Title: ctELM: Decoding and Manipulating Embeddings of Clinical Trials with Embedding Language Models
- Title(参考訳): ctELM: 言語モデルを用いた臨床試験の復号・操作
- Authors: Brian Ondov, Chia-Hsuan Chang, Yujia Zhou, Mauro Giuffrè, Hua Xu,
- Abstract要約: 我々は,オープンソースでドメインに依存しないEMMアーキテクチャと,臨床試験を組み込むためのトレーニングフレームワークを開発した。
研究対象者の年齢・性別に対する概念ベクトルに沿って埋め込みを移動させることに反応することを示す。
- 参考スコア(独自算出の注目度): 10.228049278189474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings have become an essential part of a variety of language applications. However, methods for interpreting, exploring and reversing embedding spaces are limited, reducing transparency and precluding potentially valuable generative use cases. In this work, we align Large Language Models to embeddings of clinical trials using the recently reported Embedding Language Model (ELM) method. We develop an open-source, domain-agnostic ELM architecture and training framework, design training tasks for clinical trials, and introduce an expert-validated synthetic dataset. We then train a series of ELMs exploring the impact of tasks and training regimes. Our final model, ctELM, can accurately describe and compare unseen clinical trials from embeddings alone and produce plausible clinical trials from novel vectors. We further show that generated trial abstracts are responsive to moving embeddings along concept vectors for age and sex of study subjects. Our public ELM implementation and experimental results will aid the alignment of Large Language Models to embedding spaces in the biomedical domain and beyond.
- Abstract(参考訳): テキスト埋め込みは、様々な言語アプリケーションにおいて不可欠な部分となっている。
しかし、埋め込み空間の解釈、探索、反転の方法は限られており、透明性を低下させ、潜在的に価値のある生成ユースケースを排除している。
本研究では,最近報告されたEmbedding Language Model (ELM) 法を用いて,大規模言語モデルと臨床試験の埋め込みを一致させる。
我々は、オープンソースでドメインに依存しないEMMアーキテクチャとトレーニングフレームワークを開発し、臨床試験のためのトレーニングタスクを設計し、専門家が検証した合成データセットを導入する。
次に、タスクとトレーニング体制の影響を探求する一連のEMMをトレーニングします。
我々の最終モデルであるctELMは、埋め込みだけでは見つからない臨床試験を正確に記述し、比較することができ、新しいベクターからもっともらしい臨床試験を作成できる。
さらに, 被験者の年齢, 性別に対する概念ベクトルに沿った埋め込みの移動に対して, 生成した実験抽象物が応答していることが示唆された。
ELMの公開実装と実験結果により,大規模言語モデルの生物医学領域内への埋め込み空間へのアライメントが促進される。
関連論文リスト
- EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping [0.0]
マルチモーダル言語モデリングは、表現学習のブレークスルーを可能にしてきたが、臨床表現型検索のための機能的脳データの範囲では未解明のままである。
本稿では臨床報告と15,000の脳波を訓練した脳波モデル(ELM)を考案した。
論文 参考訳(メタデータ) (2024-09-02T10:03:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning [6.822926897514793]
1)臨床症例(CC),2)臨床用語(CT),3)オントロジ概念(OC)の3つのサブタスクの実験結果
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
WMT21fbモデルを用いて,新しい言語空間をスペイン語で表現する手法について検討した。
論文 参考訳(メタデータ) (2023-12-12T13:26:42Z) - On Preserving the Knowledge of Long Clinical Texts [0.0]
臨床テキストの処理にトランスフォーマーエンコーダを使用する際のボトルネックは、これらのモデルの入力長制限から生じる。
本稿ではトランスフォーマーエンコーダの集合アンサンブルを用いたモデルにおける長期臨床テキストの知識を保存するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:50:02Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Multi-View Joint Learning Framework for Embedding Clinical Codes and
Text Using Graph Neural Networks [23.06795121693656]
我々は,テキストの可用性と前方性,およびICDコードの性能向上を両立させるため,コードとテキストから学習するフレームワークを提案する。
我々のアプローチでは、ICDコードを処理するグラフニューラルネットワーク(GNN)と、テキストを処理するBi-LSTMを用いています。
計画された外科手術用テキストを用いた実験では,BERTモデルが臨床データに微調整されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T09:19:03Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。