論文の概要: Specialized Foundation Models for Intelligent Operating Rooms
- arxiv url: http://arxiv.org/abs/2505.12890v2
- Date: Fri, 04 Jul 2025 12:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.353458
- Title: Specialized Foundation Models for Intelligent Operating Rooms
- Title(参考訳): 知的手術室の特化基礎モデル
- Authors: Ege Özsoy, Chantal Pellegrini, David Bani-Harouni, Kun Yuan, Matthias Keicher, Nassir Navab,
- Abstract要約: 本稿では,視覚,聴覚,構造化データを総合的な外科的理解のために統合したマルチモーダル基礎モデルORQAを紹介する。
ORQAを、ChatGPTやGeminiなどの一般の視覚言語モデルと比較し、手術シーンの知覚に苦慮する一方で、ORQAはより強力で一貫したパフォーマンスを提供することを示した。
この研究は、外科チームや医療技術提供者がより賢く安全な手術室を作れるような、インテリジェントな手術ソリューションの次の波の基礎を確立する。
- 参考スコア(独自算出の注目度): 45.775571784374726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical procedures unfold in complex environments demanding coordination between surgical teams, tools, imaging and increasingly, intelligent robotic systems. Ensuring safety and efficiency in ORs of the future requires intelligent systems, like surgical robots, smart instruments and digital copilots, capable of understanding complex activities and hazards of surgeries. Yet, existing computational approaches, lack the breadth, and generalization needed for comprehensive OR understanding. We introduce ORQA, a multimodal foundation model unifying visual, auditory, and structured data for holistic surgical understanding. ORQA's question-answering framework empowers diverse tasks, serving as an intelligence core for a broad spectrum of surgical technologies. We benchmark ORQA against generalist vision-language models, including ChatGPT and Gemini, and show that while they struggle to perceive surgical scenes, ORQA delivers substantially stronger, consistent performance. Recognizing the extensive range of deployment settings across clinical practice, we design, and release a family of smaller ORQA models tailored to different computational requirements. This work establishes a foundation for the next wave of intelligent surgical solutions, enabling surgical teams and medical technology providers to create smarter and safer operating rooms.
- Abstract(参考訳): 外科手術は複雑な環境で展開され、手術チーム、ツール、画像、そしてますますインテリジェントなロボティクスシステム間の調整が要求される。
今後ORの安全性と効率性を確保するには、手術ロボット、スマート機器、デジタルロボットのようなインテリジェントなシステムが必要で、複雑な活動や手術の危険を理解することができる。
しかし、既存の計算手法では、包括的OR理解に必要な広さと一般化が欠如している。
本稿では,視覚,聴覚,構造化データを総合的な外科的理解のために統合したマルチモーダル基礎モデルORQAを紹介する。
ORQAの質問応答フレームワークは、幅広い外科技術のためのインテリジェンスコアとして機能し、多様なタスクを増強する。
ORQAを、ChatGPTやGeminiなどの一般の視覚言語モデルと比較し、手術シーンの知覚に苦慮する一方で、ORQAはより強く、一貫したパフォーマンスを提供することを示した。
臨床実践にまたがる幅広いデプロイメント設定を認識し、異なる計算要件に合わせて、より小さなORQAモデルのファミリーを設計し、リリースする。
この研究は、外科チームや医療技術提供者がより賢く安全な手術室を作れるような、インテリジェントな手術ソリューションの次の波の基礎を確立する。
関連論文リスト
- Beyond Rigid AI: Towards Natural Human-Machine Symbiosis for Interoperative Surgical Assistance [6.832434059337678]
この研究は、リアルタイム手術支援において、より自然な人間と機械の相互作用を可能にする新しい知覚エージェントを導入している。
我々のエージェントは、直感的な相互作用を通じて、手術シーンにおける既知の要素と見えない要素の両方を分割する柔軟性を提供する。
論文 参考訳(メタデータ) (2025-07-30T20:42:24Z) - SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement [8.337819078911405]
SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。
内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。
我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
論文 参考訳(メタデータ) (2025-07-03T03:00:26Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [132.77459963706437]
この本は、モジュール化された脳に触発されたアーキテクチャの中で、インテリジェントなエージェントをフレーミングする、包括的な概要を提供する。
自己向上と適応的な進化のメカニズムを探求し、エージェントが自律的に能力を洗練する方法を探求する。
また、エージェントの相互作用、協力、社会構造から生じる集合的知性についても調べる。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - SurgBox: Agent-Driven Operating Room Sandbox with Surgery Copilot [3.487327636814225]
SurgBoxはエージェント駆動のサンドボックスフレームワークで、没入型手術シミュレーションにおける外科医の認知能力を高める。
特に,外科情報の流れを積極的に調整し,臨床的意思決定を支援するAI駆動型アシスタントであるオペリアルコパイロットを考案した。
論文 参考訳(メタデータ) (2024-12-06T17:07:27Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - GP-VLS: A general-purpose vision language model for surgery [0.5249805590164902]
GP-VLSは手術のための汎用視覚言語モデルである。
医学的および外科的知識と視覚的シーン理解を統合している。
GP-VLSは,手術用視覚言語タスクにおいて,オープンソースモデルやクローズドソースモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-07-27T17:27:05Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。
ベイズ最適化の原理にインスパイアされたサンプル効率のNS法を提案する。
BEACONは、限られたサンプリング予算の下で、かなり大きな多様な振る舞いの集合を見出すことで、既存のベースラインを総合的に上回ります。
論文 参考訳(メタデータ) (2024-06-05T20:23:52Z) - VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文 参考訳(メタデータ) (2024-05-14T02:05:36Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Multi-objective Asynchronous Successive Halving [10.632606255280649]
本稿では,非同期半減期 (ASHA) を多目的 (MO) 設定に拡張するアルゴリズムを提案する。
実験分析の結果,MO ASHAはMO HPOを大規模に実行可能であることがわかった。
我々のアルゴリズムは、この地域における将来の研究の新たなベースラインを確立する。
論文 参考訳(メタデータ) (2021-06-23T19:39:31Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。