論文の概要: Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural
Language Cohort Discovery
- arxiv url: http://arxiv.org/abs/2305.07637v2
- Date: Tue, 16 May 2023 13:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 11:01:38.922621
- Title: Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural
Language Cohort Discovery
- Title(参考訳): Text2Cohort: 自然言語コホート発見によるNCIイメージングデータ共有の民主化
- Authors: Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh
- Abstract要約: Imaging Data Commons (IDC) はクラウドベースのデータベースであり、癌画像データへのオープンアクセスを提供する。
IDCにおけるユーザフレンドリで直感的な自然言語コホート発見を容易にするために,Text2Cohortを開発した。
我々は、情報抽出からコホート発見まで、50の自然言語ユーザ入力に対してText2Cohortを評価した。
- 参考スコア(独自算出の注目度): 3.6704226968275258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Imaging Data Commons (IDC) is a cloud-based database that provides
researchers with open access to cancer imaging data, with the goal of
facilitating collaboration in medical imaging research. However, querying the
IDC database for cohort discovery and access to imaging data has a significant
learning curve for researchers due to its complex nature. We developed
Text2Cohort, a large language model (LLM) based toolkit to facilitate
user-friendly and intuitive natural language cohort discovery in the IDC.
Text2Cohorts translates user input into IDC database queries using prompt
engineering and autocorrection and returns the query's response to the user.
Autocorrection resolves errors in queries by passing the errors back to the
model for interpretation and correction. We evaluate Text2Cohort on 50 natural
language user inputs ranging from information extraction to cohort discovery.
The resulting queries and outputs were verified by two computer scientists to
measure Text2Cohort's accuracy and F1 score. Text2Cohort successfully generated
queries and their responses with an 88% accuracy and F1 score of 0.94. However,
it failed to generate queries for 6/50 (12%) user inputs due to syntax and
semantic errors. Our results indicate that Text2Cohort succeeded at generating
queries with correct responses, but occasionally failed due to a lack of
understanding of the data schema. Despite these shortcomings, Text2Cohort
demonstrates the utility of LLMs to enable researchers to discover and curate
cohorts using data hosted on IDC with high levels of accuracy using natural
language in a more intuitive and user-friendly way.
- Abstract(参考訳): imaging data commons (idc) はクラウドベースのデータベースで、がん画像データへのオープンアクセスを提供し、医療画像研究におけるコラボレーションを促進することを目的としている。
しかし、idcデータベースにコホートの発見と画像データへのアクセスを問い合わせることは、その複雑な性質から研究者にとって重要な学習曲線となる。
idcでユーザフレンドリーで直感的な自然言語コホート発見を容易にする,大規模言語モデル(llm)ベースのツールキットであるtext2cohortを開発した。
text2cohortsは、ユーザ入力をプロンプトエンジニアリングと自動修正を使用してidcデータベースクエリに変換し、クエリの応答をユーザに返す。
自動修正は、解釈と修正のためにエラーをモデルに返してクエリ内のエラーを解決する。
情報抽出からコホート発見まで,50の自然言語入力に対するtext2cohortの評価を行った。
結果のクエリと出力は、2人のコンピュータ科学者によって検証され、Text2Cohortの精度とF1スコアが測定された。
Text2Cohortは88%の精度でクエリとそのレスポンスを生成し、F1スコアは0.94である。
しかし、構文とセマンティックエラーのため、6/50 (12%) のユーザ入力に対するクエリ生成に失敗した。
結果から,Text2Cohortは正しい応答でクエリを生成することに成功したが,データスキーマの理解が不十分なため,時折失敗したことが示唆された。
これらの欠点にもかかわらず、Text2Cohortは、研究者がIDCにホストされたデータを使って、より直感的でユーザフレンドリな方法で自然言語を使用して高いレベルの精度でコホートを発見し、キュレートするためのLLMの有用性を実証している。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data [9.767546641019862]
我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-02-15T06:30:12Z) - Ascle: A Python Natural Language Processing Toolkit for Medical Text
Generation [30.883733024137506]
Ascleは医学用テキスト生成のために設計された、先駆的な自然言語処理(NLP)ツールキットである。
Ascleは、簡単に使えるオールインワンソリューションを備えたバイオメディカル研究者や医療専門家向けにカスタマイズされている。
論文 参考訳(メタデータ) (2023-11-28T08:13:29Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding [66.30648042100123]
自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。
広範かつスケーラブルなデータ収集ツールを開発しました。
対話型基底言語理解のための最初のデータセットを収集した。
論文 参考訳(メタデータ) (2022-11-12T02:36:32Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Decoding EEG Brain Activity for Multi-Modal Natural Language Processing [9.35961671939495]
自然言語処理タスクを改善するために脳波脳活動データの可能性を体系的に分析する最初の大規模研究を行った。
脳波信号を周波数帯域にフィルタリングすることはブロードバンド信号よりも有益であることがわかった。
単語埋め込みタイプの範囲のために、EEGデータは二分および三分感情の分類を改善し、複数のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-02-17T09:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。