論文の概要: SHED Light on Segmentation for Dense Prediction
- arxiv url: http://arxiv.org/abs/2601.22529v1
- Date: Fri, 30 Jan 2026 04:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.209624
- Title: SHED Light on Segmentation for Dense Prediction
- Title(参考訳): 密度予測のためのセグメンテーションにおけるSHED光
- Authors: Seung Hyun Lee, Sangwoo Mo, Stella X. Yu,
- Abstract要約: センス予測は、1枚の画像からピクセル当たりの値を推定し、3D知覚とロボット工学の基礎となる。
本稿では,重み付き予測にセグメンテーションを組み込むことにより,幾何的事前を明示的に適用する新しいエンコーダデコーダアーキテクチャSHEDを提案する。
- 参考スコア(独自算出の注目度): 36.2884048331386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense prediction infers per-pixel values from a single image and is fundamental to 3D perception and robotics. Although real-world scenes exhibit strong structure, existing methods treat it as an independent pixel-wise prediction, often resulting in structural inconsistencies. We propose SHED, a novel encoder-decoder architecture that enforces geometric prior explicitly by incorporating segmentation into dense prediction. By bidirectional hierarchical reasoning, segment tokens are hierarchically pooled in the encoder and unpooled in the decoder to reverse the hierarchy. The model is supervised only at the final output, allowing the segment hierarchy to emerge without explicit segmentation supervision. SHED improves depth boundary sharpness and segment coherence, while demonstrating strong cross-domain generalization from synthetic to the real-world environments. Its hierarchy-aware decoder better captures global 3D scene layouts, leading to improved semantic segmentation performance. Moreover, SHED enhances 3D reconstruction quality and reveals interpretable part-level structures that are often missed by conventional pixel-wise methods.
- Abstract(参考訳): センス予測は、1枚の画像からピクセル当たりの値を推定し、3D知覚とロボット工学の基礎となる。
現実世界のシーンは強い構造を示すが、既存の手法ではそれを独立したピクセル単位の予測として扱い、しばしば構造上の矛盾をもたらす。
本稿では,重み付き予測にセグメンテーションを組み込むことにより,幾何学的事前を明示的に強制する新しいエンコーダデコーダアーキテクチャSHEDを提案する。
双方向階層的推論により、セグメントトークンはエンコーダに階層的にプールされ、デコーダにアンプールされて階層を反転させる。
モデルは最終的な出力でのみ教師されるため、セグメント階層が明示的なセグメンテーションの監督なしに現れる。
SHEDは、深度境界のシャープネスとセグメントコヒーレンスを改善し、合成から現実世界環境への強力なクロスドメインの一般化を示す。
階層を意識したデコーダはグローバルな3Dシーンレイアウトをよりよくキャプチャし、セマンティックセグメンテーションのパフォーマンスが向上する。
さらに,SHEDは3次元再構成の精度を高め,従来の画素ワイド法でしばしば欠落する部分レベル構造を明らかにする。
関連論文リスト
- InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision [29.40602634269908]
大規模ビデオテキスト事前学習は高い性能を達成するが、意味的範囲が限られているため、ノイズの多い合成時間に依存する。
Masked Video Modeling (MVM) はパスを直接活用するが、一般的なタスクではテキストを教師する手法である。
InternVideo-Nextは2段階の事前学習方式で、セマンティックに一貫性があるが詳細保存可能な潜在空間を構築できる。
論文 参考訳(メタデータ) (2025-12-01T06:57:39Z) - Binary-Gaussian: Compact and Progressive Representation for 3D Gaussian Segmentation [83.90109373769614]
3D Gaussian Splatting (3D-GS)は効率的な3D表現として登場し、セグメンテーションのようなセグメンテーションタスクのための有望な基盤となっている。
本稿では,各特徴を2進数対決定写像によって1つの整数に圧縮する,ガウス単位のカテゴリ表現のための粗大なバイナリ符号化方式を提案する。
さらに,個別のサブタスクに分割し,クラス間の衝突を減らし,きめ細かいセグメンテーション能力を向上させるプログレッシブトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2025-11-30T15:51:30Z) - Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective [6.61305444380644]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。