論文の概要: 360-Degree Full-view Image Segmentation by Spherical Convolution compatible with Large-scale Planar Pre-trained Models
- arxiv url: http://arxiv.org/abs/2507.09216v1
- Date: Sat, 12 Jul 2025 09:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.762681
- Title: 360-Degree Full-view Image Segmentation by Spherical Convolution compatible with Large-scale Planar Pre-trained Models
- Title(参考訳): 大規模平面事前学習モデルに適合した球面畳み込みによる360度フルビュー画像分割
- Authors: Jingguo Liu, Han Yu, Shigang Li, Jianfeng Li,
- Abstract要約: 本研究では,既存の事前学習モデルの直接利用を可能にするパノラマ画像の球面サンプリング手法を提案する。
本手法では, 既訓練モデルの重みに基づく球面離散サンプリングを用い, 歪みを効果的に軽減する。
提案手法をパノラマ画像分割に適用し,球面モデルから得られた特徴をマスクとして用いた。
- 参考スコア(独自算出の注目度): 15.133436261774547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the current lack of large-scale datasets at the million-scale level, tasks involving panoramic images predominantly rely on existing two-dimensional pre-trained image benchmark models as backbone networks. However, these networks are not equipped to recognize the distortions and discontinuities inherent in panoramic images, which adversely affects their performance in such tasks. In this paper, we introduce a novel spherical sampling method for panoramic images that enables the direct utilization of existing pre-trained models developed for two-dimensional images. Our method employs spherical discrete sampling based on the weights of the pre-trained models, effectively mitigating distortions while achieving favorable initial training values. Additionally, we apply the proposed sampling method to panoramic image segmentation, utilizing features obtained from the spherical model as masks for specific channel attentions, which yields commendable results on commonly used indoor datasets, Stanford2D3D.
- Abstract(参考訳): 百万単位の大規模データセットが現在不足しているため、パノラマ画像を含むタスクは、バックボーンネットワークとして既存の2次元トレーニング済みイメージベンチマークモデルに依存している。
しかし、これらのネットワークは、パノラマ画像に固有の歪みや不連続性を認識できないため、それらのタスクのパフォーマンスに悪影響を及ぼす。
本稿では,パノラマ画像のための新しい球面サンプリング手法を提案する。
本手法では, 既訓練モデルの重みに基づく球面離散サンプリングを用い, 歪みを効果的に軽減し, 良好な初期訓練値を得る。
さらに,提案手法をパノラマ画像セグメンテーションに適用し,球面モデルから得られた特徴を,一般的な屋内データセットであるStanford2D3Dに有望な結果をもたらす特定のチャネルアテンションのマスクとして利用した。
関連論文リスト
- UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations [3.8240176158734194]
本研究では, 単眼パノラマ画像の深度を, 正方形および球形表現を融合した教師学生モデルを用いて推定する手法を提案する。
実験では、よく知られた360度単分子深度推定ベンチマークを用いて、提案手法を検証した。
論文 参考訳(メタデータ) (2024-05-27T06:11:16Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Enhancing Diffusion Models with 3D Perspective Geometry Constraints [10.21800236402905]
本稿では、視点精度を向上させるために、生成モデルのトレーニングプロセスに新しい幾何学的制約を導入する。
この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-01T21:56:43Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - An application of a pseudo-parabolic modeling to texture image
recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。
擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文 参考訳(メタデータ) (2021-02-09T18:08:42Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。