Fugu-MT 論文翻訳(概要): S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph Generation in OR

論文の概要: S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph Generation in OR

arxiv url: http://arxiv.org/abs/2402.14461v1
Date: Thu, 22 Feb 2024 11:40:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:22:28.221876
Title: S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph Generation in OR
Title（参考訳）: s^2former-or : orにおけるシーングラフ生成のための単段バイモーダルトランス
Authors: Jialun Pei, Diandian Guo, Jingyang Zhang, Manxi Lin, Yueming Jin, Pheng-Ann Heng
Abstract要約: 外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
参考スコア（独自算出の注目度）: 52.964721233679406
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Scene graph generation (SGG) of surgical procedures is crucial in enhancing holistically cognitive intelligence in the operating room (OR). However, previous works have primarily relied on the multi-stage learning that generates semantic scene graphs dependent on intermediate processes with pose estimation and object detection, which may compromise model efficiency and efficacy, also impose extra annotation burden. In this study, we introduce a novel single-stage bimodal transformer framework for SGG in the OR, termed S^2Former-OR, aimed to complementally leverage multi-view 2D scenes and 3D point clouds for SGG in an end-to-end manner. Concretely, our model embraces a View-Sync Transfusion scheme to encourage multi-view visual information interaction. Concurrently, a Geometry-Visual Cohesion operation is designed to integrate the synergic 2D semantic features into 3D point cloud features. Moreover, based on the augmented feature, we propose a novel relation-sensitive transformer decoder that embeds dynamic entity-pair queries and relational trait priors, which enables the direct prediction of entity-pair relations for graph generation without intermediate steps. Extensive experiments have validated the superior SGG performance and lower computational cost of S^2Former-OR on 4D-OR benchmark, compared with current OR-SGG methods, e.g., 3% Precision increase and 24.2M reduction in model parameters. We further compared our method with generic single-stage SGG methods with broader metrics for a comprehensive evaluation, with consistently better performance achieved. The code will be made available.
Abstract（参考訳）: 手術手順のシーングラフ生成(SGG)は,手術室(OR)の全体的認知知性を高める上で重要である。しかし、従来の研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存する意味的シーングラフを生成する多段階学習に依存しており、モデルの効率と有効性を損なう可能性がある。本研究では,SGGのマルチビュー2Dシーンと3Dポイントクラウドをエンドツーエンドで補完的に活用することを目的とした,ORにおけるSGG用シングルステージバイモーダルトランスフォーマフレームワークS^2Former-ORを提案する。具体的には,マルチビュー視覚情報インタラクションを促進するために,view-syncトランスフュージョン方式を採用している。同時に、Geometry-Visual Cohesion操作は、相乗的な2Dセマンティック機能と3Dポイントクラウド機能を統合するように設計されている。さらに、この拡張機能に基づいて、動的エンティティペアクエリとリレーショナル特性を組み込んだ新しいリレーショナルセンシティブ・トランスフォーマーデコーダを提案し、中間ステップなしでグラフ生成のためのエンティティペア関係の直接予測を可能にする。 4D-ORベンチマークにおけるS^2Former-ORの優れたSGG性能と低い計算コストを、現在のOR-SGG法(例: 3%精度の向上と24.2Mモデルパラメータの削減)と比較して検証した。さらに,本手法を汎用単段sgg法と比較し,総合的評価のための幅広い測定値と比較した。コードは利用可能になります。

関連論文リスト

econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting [29.69981069695724]
RGBの出現と動きパラメータの推定により,部分レベルでの同時再構成の課題に対処する。我々は3次元ガウス表現において、外観情報と幾何学情報の両方を同時に再構成する。我々はArticulatedGSを紹介した。ArticulatedGSは自己監督型で総合的なフレームワークで、パートレベルで形状や外観を自律的にモデル化する。
論文参考訳（メタデータ） (2025-03-11T07:56:12Z)
HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文参考訳（メタデータ） (2024-12-05T03:20:35Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-28T10:34:28Z)
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。 SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文参考訳（メタデータ） (2024-04-22T15:01:32Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文参考訳（メタデータ） (2023-06-08T22:55:32Z)
Skeleton-based Action Recognition through Contrasting Two-Stream Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-01-27T02:12:08Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。 SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-07-04T09:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。