論文の概要: ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling
- arxiv url: http://arxiv.org/abs/2505.12890v1
- Date: Mon, 19 May 2025 09:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.510361
- Title: ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling
- Title(参考訳): ORQA: ホロスティックなオペレーティングルームモデリングのためのベンチマークと基礎モデル
- Authors: Ege Özsoy, Chantal Pellegrini, David Bani-Harouni, Kun Yuan, Matthias Keicher, Nassir Navab,
- Abstract要約: 本稿では,新しいOR質問応答ベンチマークであるORQAと,ORインテリジェンス向上のための基礎的マルチモーダルモデルを紹介する。
4つの公開ORデータセットを総合的なベンチマークに統一することで、当社のアプローチはさまざまなOR課題に同時に対処することが可能になります。
提案するマルチモーダル大言語モデルは,視覚,聴覚,構造化データなどの多様なOR信号を融合し,ORの全体的モデリングを行う。
- 参考スコア(独自算出の注目度): 45.775571784374726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world complexity of surgeries necessitates surgeons to have deep and holistic comprehension to ensure precision, safety, and effective interventions. Computational systems are required to have a similar level of comprehension within the operating room. Prior works, limited to single-task efforts like phase recognition or scene graph generation, lack scope and generalizability. In this work, we introduce ORQA, a novel OR question answering benchmark and foundational multimodal model to advance OR intelligence. By unifying all four public OR datasets into a comprehensive benchmark, we enable our approach to concurrently address a diverse range of OR challenges. The proposed multimodal large language model fuses diverse OR signals such as visual, auditory, and structured data, for a holistic modeling of the OR. Finally, we propose a novel, progressive knowledge distillation paradigm, to generate a family of models optimized for different speed and memory requirements. We show the strong performance of ORQA on our proposed benchmark, and its zero-shot generalization, paving the way for scalable, unified OR modeling and significantly advancing multimodal surgical intelligence. We will release our code and data upon acceptance.
- Abstract(参考訳): 手術の現実的な複雑さは、外科医が正確さ、安全性、効果的な介入を確実にするために、深く総合的な理解を必要とする。
計算システムは、手術室内でも同様のレベルの理解が必要である。
以前は、フェーズ認識やシーングラフ生成といったシングルタスクの取り組みに限定されていたが、スコープと一般化性に欠けていた。
本稿では,新しいOR質問応答ベンチマークであるORQAと,ORインテリジェンス向上のための基礎的マルチモーダルモデルを紹介する。
4つの公開ORデータセットを総合的なベンチマークに統一することで、当社のアプローチはさまざまなOR課題に同時に対処することが可能になります。
提案するマルチモーダル大言語モデルは,視覚,聴覚,構造化データなどの多様なOR信号を融合し,ORの全体的モデリングを行う。
最後に、異なる速度とメモリ要求に最適化されたモデルのファミリーを生成するための、新しいプログレッシブな知識蒸留パラダイムを提案する。
提案したベンチマークにおいてORQAの強い性能を示し、そのゼロショットの一般化により、スケーラブルで統一されたORモデリングが実現され、マルチモーダル手術インテリジェンスを大幅に進歩させる。
受け入れ次第、コードとデータを公開します。
関連論文リスト
- Beyond Rigid AI: Towards Natural Human-Machine Symbiosis for Interoperative Surgical Assistance [6.832434059337678]
この研究は、リアルタイム手術支援において、より自然な人間と機械の相互作用を可能にする新しい知覚エージェントを導入している。
我々のエージェントは、直感的な相互作用を通じて、手術シーンにおける既知の要素と見えない要素の両方を分割する柔軟性を提供する。
論文 参考訳(メタデータ) (2025-07-30T20:42:24Z) - SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement [8.337819078911405]
SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。
内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。
我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
論文 参考訳(メタデータ) (2025-07-03T03:00:26Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [132.77459963706437]
この本は、モジュール化された脳に触発されたアーキテクチャの中で、インテリジェントなエージェントをフレーミングする、包括的な概要を提供する。
自己向上と適応的な進化のメカニズムを探求し、エージェントが自律的に能力を洗練する方法を探求する。
また、エージェントの相互作用、協力、社会構造から生じる集合的知性についても調べる。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - SurgBox: Agent-Driven Operating Room Sandbox with Surgery Copilot [3.487327636814225]
SurgBoxはエージェント駆動のサンドボックスフレームワークで、没入型手術シミュレーションにおける外科医の認知能力を高める。
特に,外科情報の流れを積極的に調整し,臨床的意思決定を支援するAI駆動型アシスタントであるオペリアルコパイロットを考案した。
論文 参考訳(メタデータ) (2024-12-06T17:07:27Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - GP-VLS: A general-purpose vision language model for surgery [0.5249805590164902]
GP-VLSは手術のための汎用視覚言語モデルである。
医学的および外科的知識と視覚的シーン理解を統合している。
GP-VLSは,手術用視覚言語タスクにおいて,オープンソースモデルやクローズドソースモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-07-27T17:27:05Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。
ベイズ最適化の原理にインスパイアされたサンプル効率のNS法を提案する。
BEACONは、限られたサンプリング予算の下で、かなり大きな多様な振る舞いの集合を見出すことで、既存のベースラインを総合的に上回ります。
論文 参考訳(メタデータ) (2024-06-05T20:23:52Z) - VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文 参考訳(メタデータ) (2024-05-14T02:05:36Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Multi-objective Asynchronous Successive Halving [10.632606255280649]
本稿では,非同期半減期 (ASHA) を多目的 (MO) 設定に拡張するアルゴリズムを提案する。
実験分析の結果,MO ASHAはMO HPOを大規模に実行可能であることがわかった。
我々のアルゴリズムは、この地域における将来の研究の新たなベースラインを確立する。
論文 参考訳(メタデータ) (2021-06-23T19:39:31Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。