論文の概要: ROBoto2: An Interactive System and Dataset for LLM-assisted Clinical Trial Risk of Bias Assessment
- arxiv url: http://arxiv.org/abs/2511.03048v1
- Date: Tue, 04 Nov 2025 22:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.264915
- Title: ROBoto2: An Interactive System and Dataset for LLM-assisted Clinical Trial Risk of Bias Assessment
- Title(参考訳): ROBoto2 : バイオマスアセスメントのLCM支援臨床試験リスクのためのインタラクティブシステムとデータセット
- Authors: Anthony Hevia, Sanjana Chintalapati, Veronica Ka Wai Lai, Thanh Tam Nguyen, Wai-Tat Wong, Terry Klassen, Lucy Lu Wang,
- Abstract要約: ROBOTO2は、大規模言語モデル(LLM)による臨床試験のバイアスリスク評価(ROB)のための、オープンソースのWebベースプラットフォームである。
ユーザーは臨床試験レポートをアップロードし、予備回答を受け取り、ROB2シグナルの質問に対する証拠を支持することができる。
- 参考スコア(独自算出の注目度): 10.203835669882965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ROBOTO2, an open-source, web-based platform for large language model (LLM)-assisted risk of bias (ROB) assessment of clinical trials. ROBOTO2 streamlines the traditionally labor-intensive ROB v2 (ROB2) annotation process via an interactive interface that combines PDF parsing, retrieval-augmented LLM prompting, and human-in-the-loop review. Users can upload clinical trial reports, receive preliminary answers and supporting evidence for ROB2 signaling questions, and provide real-time feedback or corrections to system suggestions. ROBOTO2 is publicly available at https://roboto2.vercel.app/, with code and data released to foster reproducibility and adoption. We construct and release a dataset of 521 pediatric clinical trial reports (8954 signaling questions with 1202 evidence passages), annotated using both manually and LLM-assisted methods, serving as a benchmark and enabling future research. Using this dataset, we benchmark ROB2 performance for 4 LLMs and provide an analysis into current model capabilities and ongoing challenges in automating this critical aspect of systematic review.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) を用いた臨床治験のリスク評価 (ROB) のためのオープンソースの Web ベースプラットフォーム ROBOTO2 を提案する。
ROBOTO2 は従来の労働集約型 ROB v2 (ROB2) アノテーションプロセスを、PDF解析、検索拡張 LLM プロンプト、ループ内レビューを組み合わせたインタラクティブインターフェースを通じて合理化している。
ユーザーは臨床試験レポートをアップロードし、予備的な回答を受け取り、ROB2シグナルの質問に対する証拠をサポートし、システム提案に対するリアルタイムのフィードバックや修正を提供することができる。
ROBOTO2はhttps://roboto2.vercel.app/で公開されている。
我々は,521名の小児臨床治験報告(8954名,1202件のエビデンスパスで質問を合図する)のデータセットを作成,リリースし,手動およびLCM支援手法の両方を用いて注釈を付し,ベンチマークとして機能し,今後の研究を可能にする。
このデータセットを用いて、4LLMのROB2性能をベンチマークし、現在のモデル機能と、体系的レビューのこの重要な側面を自動化するための継続的な課題の分析を行う。
関連論文リスト
- Dual-stage and Lightweight Patient Chart Summarization for Emergency Physicians [31.476936654094942]
組込みデバイス上で完全に動作する2段階の要約システムを提案する。
検索段階では、ローカルに保存されたEHRを使用し、長いメモを意味的に一貫性のあるセクションに分割し、クエリ毎に最も関連性の高いセクションを検索する。
生成段階は、検索したテキストから要約を生成するために、ローカルにホストされた小さな言語モデル(SLM)を使用する。
論文 参考訳(メタデータ) (2025-10-05T19:30:56Z) - Leaps Beyond the Seen: Reinforced Reasoning Augmented Generation for Clinical Notes [10.897880916802864]
ReinRAG (ReinRAG) は、入力前情報に基づく長期放電命令のための推論拡張生成(RAG)である。
情報ギャップを埋めるため,グループ正規化報酬による検索品質の向上を目的としたグループベースレトリバー最適化(GRO)を提案する。
実世界のデータセットの実験では、ReinRAGは臨床効果と自然言語生成の指標の両方においてベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T12:59:52Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - RoBIn: A Transformer-Based Model For Risk Of Bias Inference With Machine Reading Comprehension [1.201626478128059]
機械読取理解とRoB評価のための新しいデータセットとRoBIn (Risk of Bias Inference) について紹介する。
このモデルはデュアルタスクのアプローチを採用し、与えられた文脈から証拠を抽出し、収集された証拠に基づいてRoBを評価する。
RoBInはさまざまな設定で評価され、RoB推論の最先端メソッドに対してベンチマークされる。
論文 参考訳(メタデータ) (2024-10-28T20:03:56Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - ACR: A Benchmark for Automatic Cohort Retrieval [1.3547712404175771]
現在のコホート検索手法は、手作業によるキュレーションと組み合わせた構造化データの自動クエリに依存している。
大規模言語モデル(LLM)と情報検索(IR)の最近の進歩は、これらのシステムに革命をもたらす有望な道を提供する。
本稿では,新しいタスクであるAutomatic Cohort Retrieval (ACR)を導入し,LLMと商用のドメイン固有のニューロシンボリックアプローチの性能を評価する。
論文 参考訳(メタデータ) (2024-06-20T23:04:06Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - DORO: Distributional and Outlier Robust Optimization [98.44757325531631]
本稿では,分散ロバスト最適化のためのDOROのフレームワークを提案する。
このアプローチのコアとなるのは、DROがオーバーフィットして潜在的な外れ値に収まらないような、洗練されたリスク関数である。
提案手法の有効性を理論的に証明し, DOROがDROの性能と安定性を向上することを示す。
論文 参考訳(メタデータ) (2021-06-11T02:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。