論文の概要: ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling
- arxiv url: http://arxiv.org/abs/2505.12890v1
- Date: Mon, 19 May 2025 09:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.510361
- Title: ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling
- Title(参考訳): ORQA: ホロスティックなオペレーティングルームモデリングのためのベンチマークと基礎モデル
- Authors: Ege Özsoy, Chantal Pellegrini, David Bani-Harouni, Kun Yuan, Matthias Keicher, Nassir Navab,
- Abstract要約: 本稿では,新しいOR質問応答ベンチマークであるORQAと,ORインテリジェンス向上のための基礎的マルチモーダルモデルを紹介する。
4つの公開ORデータセットを総合的なベンチマークに統一することで、当社のアプローチはさまざまなOR課題に同時に対処することが可能になります。
提案するマルチモーダル大言語モデルは,視覚,聴覚,構造化データなどの多様なOR信号を融合し,ORの全体的モデリングを行う。
- 参考スコア(独自算出の注目度): 45.775571784374726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real-world complexity of surgeries necessitates surgeons to have deep and holistic comprehension to ensure precision, safety, and effective interventions. Computational systems are required to have a similar level of comprehension within the operating room. Prior works, limited to single-task efforts like phase recognition or scene graph generation, lack scope and generalizability. In this work, we introduce ORQA, a novel OR question answering benchmark and foundational multimodal model to advance OR intelligence. By unifying all four public OR datasets into a comprehensive benchmark, we enable our approach to concurrently address a diverse range of OR challenges. The proposed multimodal large language model fuses diverse OR signals such as visual, auditory, and structured data, for a holistic modeling of the OR. Finally, we propose a novel, progressive knowledge distillation paradigm, to generate a family of models optimized for different speed and memory requirements. We show the strong performance of ORQA on our proposed benchmark, and its zero-shot generalization, paving the way for scalable, unified OR modeling and significantly advancing multimodal surgical intelligence. We will release our code and data upon acceptance.
- Abstract(参考訳): 手術の現実的な複雑さは、外科医が正確さ、安全性、効果的な介入を確実にするために、深く総合的な理解を必要とする。
計算システムは、手術室内でも同様のレベルの理解が必要である。
以前は、フェーズ認識やシーングラフ生成といったシングルタスクの取り組みに限定されていたが、スコープと一般化性に欠けていた。
本稿では,新しいOR質問応答ベンチマークであるORQAと,ORインテリジェンス向上のための基礎的マルチモーダルモデルを紹介する。
4つの公開ORデータセットを総合的なベンチマークに統一することで、当社のアプローチはさまざまなOR課題に同時に対処することが可能になります。
提案するマルチモーダル大言語モデルは,視覚,聴覚,構造化データなどの多様なOR信号を融合し,ORの全体的モデリングを行う。
最後に、異なる速度とメモリ要求に最適化されたモデルのファミリーを生成するための、新しいプログレッシブな知識蒸留パラダイムを提案する。
提案したベンチマークにおいてORQAの強い性能を示し、そのゼロショットの一般化により、スケーラブルで統一されたORモデリングが実現され、マルチモーダル手術インテリジェンスを大幅に進歩させる。
受け入れ次第、コードとデータを公開します。
関連論文リスト
- UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - BEACON: A Bayesian Optimization Strategy for Novelty Search in Expensive Black-Box Systems [1.204357447396532]
ノベルティ・サーチ (NS) は、シミュレーションや実験を通じて様々なシステムの振る舞いを自動的に発見する探索アルゴリズムのクラスである。
ベイズ最適化の原理にインスパイアされたサンプル効率のNS法を提案する。
BEACONは、限られたサンプリング予算の下で、かなり大きな多様な振る舞いの集合を見出すことで、既存のベースラインを総合的に上回ります。
論文 参考訳(メタデータ) (2024-06-05T20:23:52Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Multi-objective Asynchronous Successive Halving [10.632606255280649]
本稿では,非同期半減期 (ASHA) を多目的 (MO) 設定に拡張するアルゴリズムを提案する。
実験分析の結果,MO ASHAはMO HPOを大規模に実行可能であることがわかった。
我々のアルゴリズムは、この地域における将来の研究の新たなベースラインを確立する。
論文 参考訳(メタデータ) (2021-06-23T19:39:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。