論文の概要: Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
- arxiv url: http://arxiv.org/abs/2503.21054v1
- Date: Wed, 26 Mar 2025 23:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.337041
- Title: Operating Room Workflow Analysis via Reasoning Segmentation over Digital Twins
- Title(参考訳): ディジタル双生児に対する推論セグメンテーションによる手術室のワークフロー解析
- Authors: Yiqing Shen, Chenjia Li, Bohan Liu, Cheng-Yi Li, Tito Porras, Mathias Unberath,
- Abstract要約: 手術室 (OR) を解析し, OR効率に関する定量的知見を導出することが病院にとって重要である。
基礎モデルに基づく推論セグメンテーション(RS)は、ORビデオフィードからOR改善の自動分析を可能にする柔軟性を提供する。
ORDiRS(Operation Room Digital twin representation for Reasoning, LLMフリーRSフレームワーク)について述べる。
- 参考スコア(独自算出の注目度): 7.34430213311229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing operating room (OR) workflows to derive quantitative insights into OR efficiency is important for hospitals to maximize patient care and financial sustainability. Prior work on OR-level workflow analysis has relied on end-to-end deep neural networks. While these approaches work well in constrained settings, they are limited to the conditions specified at development time and do not offer the flexibility necessary to accommodate the OR workflow analysis needs of various OR scenarios (e.g., large academic center vs. rural provider) without data collection, annotation, and retraining. Reasoning segmentation (RS) based on foundation models offers this flexibility by enabling automated analysis of OR workflows from OR video feeds given only an implicit text query related to the objects of interest. Due to the reliance on large language model (LLM) fine-tuning, current RS approaches struggle with reasoning about semantic/spatial relationships and show limited generalization to OR video due to variations in visual characteristics and domain-specific terminology. To address these limitations, we first propose a novel digital twin (DT) representation that preserves both semantic and spatial relationships between the various OR components. Then, building on this foundation, we propose ORDiRS (Operating Room Digital twin representation for Reasoning Segmentation), an LLM-tuning-free RS framework that reformulates RS into a "reason-retrieval-synthesize" paradigm. Finally, we present ORDiRS-Agent, an LLM-based agent that decomposes OR workflow analysis queries into manageable RS sub-queries and generates responses by combining detailed textual explanations with supporting visual evidence from RS. Experimental results on both an in-house and a public OR dataset demonstrate that our ORDiRS achieves a cIoU improvement of 6.12%-9.74% compared to the existing state-of-the-arts.
- Abstract(参考訳): 手術室(OR)のワークフローを分析してOR効率を定量的に把握することは、病院にとって患者のケアと財政的持続可能性の最大化に重要である。
ORレベルのワークフロー分析に関する以前の研究は、エンドツーエンドのディープニューラルネットワークに依存していた。
これらのアプローチは制約のある環境ではうまく機能するが、開発時に規定された条件に制限されており、データ収集、アノテーション、再トレーニングなしに様々なORシナリオ(例えば、大規模学術機関と地方プロバイダ)のORワークフロー分析のニーズを満たすために必要な柔軟性を提供していない。
基礎モデルに基づく推論セグメンテーション(RS)は、興味のあるオブジェクトに関連する暗黙のテキストクエリのみを与えられたORビデオフィードからORワークフローの自動解析を可能にすることで、この柔軟性を提供する。
大規模言語モデル(LLM)の微調整に頼っているため、現在のRSアプローチは意味的/空間的関係の推論に苦慮し、視覚的特徴やドメイン固有の用語のバリエーションによるORビデオへの限定的な一般化を示す。
これらの制約に対処するために、まず、様々なORコンポーネント間の意味的および空間的関係を保存する新しいデジタルツイン(DT)表現を提案する。
そこで我々は,ORDiRS (Operation Room Digital twin representation for Reasoning Segmentation, LLM-tuning-free RS framework)を提案する。
最後に、ORDiRS-Agentは、ORワークフロー分析クエリを管理可能なRSサブクエリに分解し、詳細なテキスト説明とRSからの視覚的証拠を組み合わせて応答を生成するLLMベースのエージェントである。
社内と公共のORデータセットの両方の実験結果から、ORDiRSは既存の最先端技術と比較して6.12%-9.74%のcIoU改善を実現していることが示された。
関連論文リスト
- Privacy-Preserving Operating Room Workflow Analysis using Digital Twins [38.744671293771695]
本稿では,プライバシー保護操作室(OR)のビデオ解析とイベント検出のための2段階パイプラインを提案する。
第1段階では、従来のRGBビデオからORの非識別デジタル双対(DT)を生成するために、奥行き推定とセマンティックセグメンテーションのための視覚基盤モデルを利用する。
第2段階では、セグメンテーションマスクと深度マップをORイベント検出のために処理する、融合した2ストリームアプローチであるSafeORモデルを用いる。
論文 参考訳(メタデータ) (2025-04-17T00:46:06Z) - SurgRAW: Multi-Agent Workflow with Chain-of-Thought Reasoning for Surgical Intelligence [16.584722724845182]
手術インテリジェンスにおける視覚-言語モデルの統合は、幻覚、ドメイン知識のギャップ、タスク相互依存性の限定的な理解によって妨げられている。
本稿では,CoT駆動型マルチエージェントフレームワークであるSurgRAWについて紹介する。
論文 参考訳(メタデータ) (2025-03-13T11:23:13Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。
第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI Agents [65.36060818857109]
本稿では,過去の対話から対話を抽出し,評価するための新しい枠組みを提案する。
抽出プロセスは,(1)重要な手続き的要素に基づいて関連する会話を選択するための検索ステップ,(2)質問応答に基づくチェーン・オブ・シークレット(QA-CoT)プロンプトを用いた構造化ワークフロー生成プロセスの2つの主要な段階から構成される。
論文 参考訳(メタデータ) (2025-02-24T16:55:15Z) - Research on the Application of Spark Streaming Real-Time Data Analysis System and large language model Intelligent Agents [1.4582633500696451]
本研究では、ビッグデータ環境におけるリアルタイムデータ分析システムを強化するために、Agent AIとLangGraphの統合について検討する。
提案したフレームワークは、静的で非効率なステートフル計算の限界を克服し、人間の介入の欠如を克服する。
システムアーキテクチャにはApache Spark Streaming、Kafka、LangGraphが組み込まれ、高性能な感情分析システムを構築する。
論文 参考訳(メタデータ) (2024-12-10T05:51:11Z) - DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search [19.694957365385896]
会話検索(英語: Conversational Search, CS)は、コーパスから関連文書を会話コンテキスト内で検索するタスクである。
現在の手法では、人間が書き直したクエリから埋め込みを蒸留してコンテキストモデリングタスクを学習することでこの問題に対処している。
本稿では,従来の目的を緩和し,検索とコンテキストモデリングを統一する新しい蒸留法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:03:17Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics [12.317930859033149]
我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
論文 参考訳(メタデータ) (2022-12-14T21:46:33Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。