論文の概要: Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
- arxiv url: http://arxiv.org/abs/2503.21054v1
- Date: Wed, 26 Mar 2025 23:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:29.177285
- Title: Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
- Title(参考訳): ディジタル双生児に対する推論セグメンテーションによる手術室のワークフロー解析
- Authors: Yiqing Shen, Chenjia Li, Bohan Liu, Cheng-Yi Li, Tito Porras, Mathias Unberath,
- Abstract要約: 手術室 (OR) を解析し, OR効率に関する定量的知見を導出することが病院にとって重要である。
基礎モデルに基づく推論セグメンテーション(RS)は、ORビデオフィードからOR改善の自動分析を可能にする柔軟性を提供する。
ORDiRS(Operation Room Digital twin representation for Reasoning, LLMフリーRSフレームワーク)について述べる。
- 参考スコア(独自算出の注目度): 7.34430213311229
- License:
- Abstract: Analyzing operating room (OR) workflows to derive quantitative insights into OR efficiency is important for hospitals to maximize patient care and financial sustainability. Prior work on OR-level workflow analysis has relied on end-to-end deep neural networks. While these approaches work well in constrained settings, they are limited to the conditions specified at development time and do not offer the flexibility necessary to accommodate the OR workflow analysis needs of various OR scenarios (e.g., large academic center vs. rural provider) without data collection, annotation, and retraining. Reasoning segmentation (RS) based on foundation models offers this flexibility by enabling automated analysis of OR workflows from OR video feeds given only an implicit text query related to the objects of interest. Due to the reliance on large language model (LLM) fine-tuning, current RS approaches struggle with reasoning about semantic/spatial relationships and show limited generalization to OR video due to variations in visual characteristics and domain-specific terminology. To address these limitations, we first propose a novel digital twin (DT) representation that preserves both semantic and spatial relationships between the various OR components. Then, building on this foundation, we propose ORDiRS (Operating Room Digital twin representation for Reasoning Segmentation), an LLM-tuning-free RS framework that reformulates RS into a "reason-retrieval-synthesize" paradigm. Finally, we present ORDiRS-Agent, an LLM-based agent that decomposes OR workflow analysis queries into manageable RS sub-queries and generates responses by combining detailed textual explanations with supporting visual evidence from RS. Experimental results on both an in-house and a public OR dataset demonstrate that our ORDiRS achieves a cIoU improvement of 6.12%-9.74% compared to the existing state-of-the-arts.
- Abstract(参考訳): 手術室(OR)のワークフローを分析してOR効率を定量的に把握することは、病院にとって患者のケアと財政的持続可能性の最大化に重要である。
ORレベルのワークフロー分析に関する以前の研究は、エンドツーエンドのディープニューラルネットワークに依存していた。
これらのアプローチは制約のある環境ではうまく機能するが、開発時に規定された条件に制限されており、データ収集、アノテーション、再トレーニングなしに様々なORシナリオ(例えば、大規模学術機関と地方プロバイダ)のORワークフロー分析のニーズを満たすために必要な柔軟性を提供していない。
基礎モデルに基づく推論セグメンテーション(RS)は、興味のあるオブジェクトに関連する暗黙のテキストクエリのみを与えられたORビデオフィードからORワークフローの自動解析を可能にすることで、この柔軟性を提供する。
大規模言語モデル(LLM)の微調整に頼っているため、現在のRSアプローチは意味的/空間的関係の推論に苦慮し、視覚的特徴やドメイン固有の用語のバリエーションによるORビデオへの限定的な一般化を示す。
これらの制約に対処するために、まず、様々なORコンポーネント間の意味的および空間的関係を保存する新しいデジタルツイン(DT)表現を提案する。
そこで我々は,ORDiRS (Operation Room Digital twin representation for Reasoning Segmentation, LLM-tuning-free RS framework)を提案する。
最後に、ORDiRS-Agentは、ORワークフロー分析クエリを管理可能なRSサブクエリに分解し、詳細なテキスト説明とRSからの視覚的証拠を組み合わせて応答を生成するLLMベースのエージェントである。
社内と公共のORデータセットの両方の実験結果から、ORDiRSは既存の最先端技術と比較して6.12%-9.74%のcIoU改善を実現していることが示された。
関連論文リスト
- Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - ASPIRE: Assistive System for Performance Evaluation in IR [1.9441753575523208]
ASPIRE(Assistive System for Performance Evaluation in IR)は、情報検索実験の詳細な分析のための視覚分析ツールである。
ASPIREは、単一/複数実験の比較、クエリレベルの分析、クエリ特性とパフォーマンスの相互作用、コレクションベースの検索分析という、IR実験評価と分析の4つの重要な側面をサポートする。
論文 参考訳(メタデータ) (2024-12-20T10:25:28Z) - DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search [19.694957365385896]
会話検索(英語: Conversational Search, CS)は、コーパスから関連文書を会話コンテキスト内で検索するタスクである。
現在の手法では、人間が書き直したクエリから埋め込みを蒸留してコンテキストモデリングタスクを学習することでこの問題に対処している。
本稿では,従来の目的を緩和し,検索とコンテキストモデリングを統一する新しい蒸留法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:03:17Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics [12.317930859033149]
我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
論文 参考訳(メタデータ) (2022-12-14T21:46:33Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。