論文の概要: S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR
- arxiv url: http://arxiv.org/abs/2402.14461v1
- Date: Thu, 22 Feb 2024 11:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:22:28.221876
- Title: S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR
- Title(参考訳): s^2former-or : orにおけるシーングラフ生成のための単段バイモーダルトランス
- Authors: Jialun Pei, Diandian Guo, Jingyang Zhang, Manxi Lin, Yueming Jin,
Pheng-Ann Heng
- Abstract要約: 外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.964721233679406
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scene graph generation (SGG) of surgical procedures is crucial in enhancing
holistically cognitive intelligence in the operating room (OR). However,
previous works have primarily relied on the multi-stage learning that generates
semantic scene graphs dependent on intermediate processes with pose estimation
and object detection, which may compromise model efficiency and efficacy, also
impose extra annotation burden. In this study, we introduce a novel
single-stage bimodal transformer framework for SGG in the OR, termed
S^2Former-OR, aimed to complementally leverage multi-view 2D scenes and 3D
point clouds for SGG in an end-to-end manner. Concretely, our model embraces a
View-Sync Transfusion scheme to encourage multi-view visual information
interaction. Concurrently, a Geometry-Visual Cohesion operation is designed to
integrate the synergic 2D semantic features into 3D point cloud features.
Moreover, based on the augmented feature, we propose a novel relation-sensitive
transformer decoder that embeds dynamic entity-pair queries and relational
trait priors, which enables the direct prediction of entity-pair relations for
graph generation without intermediate steps. Extensive experiments have
validated the superior SGG performance and lower computational cost of
S^2Former-OR on 4D-OR benchmark, compared with current OR-SGG methods, e.g., 3%
Precision increase and 24.2M reduction in model parameters. We further compared
our method with generic single-stage SGG methods with broader metrics for a
comprehensive evaluation, with consistently better performance achieved. The
code will be made available.
- Abstract(参考訳): 手術手順のシーングラフ生成(SGG)は,手術室(OR)の全体的認知知性を高める上で重要である。
しかし、従来の研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存する意味的シーングラフを生成する多段階学習に依存しており、モデルの効率と有効性を損なう可能性がある。
本研究では,SGGのマルチビュー2Dシーンと3Dポイントクラウドをエンドツーエンドで補完的に活用することを目的とした,ORにおけるSGG用シングルステージバイモーダルトランスフォーマフレームワークS^2Former-ORを提案する。
具体的には,マルチビュー視覚情報インタラクションを促進するために,view-syncトランスフュージョン方式を採用している。
同時に、Geometry-Visual Cohesion操作は、相乗的な2Dセマンティック機能と3Dポイントクラウド機能を統合するように設計されている。
さらに、この拡張機能に基づいて、動的エンティティペアクエリとリレーショナル特性を組み込んだ新しいリレーショナルセンシティブ・トランスフォーマーデコーダを提案し、中間ステップなしでグラフ生成のためのエンティティペア関係の直接予測を可能にする。
4D-ORベンチマークにおけるS^2Former-ORの優れたSGG性能と低い計算コストを、現在のOR-SGG法(例: 3%精度の向上と24.2Mモデルパラメータの削減)と比較して検証した。
さらに,本手法を汎用単段sgg法と比較し,総合的評価のための幅広い測定値と比較した。
コードは利用可能になります。
関連論文リスト
- HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。