論文の概要: Holistic Order Prediction in Natural Scenes
- arxiv url: http://arxiv.org/abs/2510.01704v1
- Date: Thu, 02 Oct 2025 06:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.022551
- Title: Holistic Order Prediction in Natural Scenes
- Title(参考訳): 自然場面における立体秩序予測
- Authors: Pierre Musacchio, Hyunmin Lee, Jaesik Park,
- Abstract要約: InstaFormerは、全体的な順序予測が可能なネットワークである。
InstaFormerは、シーン内のすべてのインスタンスの完全なオクルージョンとディープオーダを、単一のフォワードパスで返します。
私たちのコードとモデルはオープンソースで、このURLで利用可能です。
- 参考スコア(独自算出の注目度): 30.51081348482057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even in controlled settings, understanding instance-wise geometries is a challenging task for a wide range of visual models. Although specialized systems exist, modern arts rely on expensive input formats (category labels, binary segmentation masks) and inference costs (a quadratic amount of forward passes). We mitigate these limitations by proposing InstaFormer, a network capable of holistic order prediction. That is, solely given an input RGB image, InstaFormer returns the full occlusion and depth orderings for all the instances in the scene in a single forward pass. At its core, InstaFormer relies on interactions between object queries and latent mask descriptors that semantically represent the same objects while carrying complementary information. We comprehensively benchmark and ablate our approach to highlight its effectiveness. Our code and models are open-source and available at this URL: https://github.com/SNU-VGILab/InstaOrder.
- Abstract(参考訳): 制御された設定であっても、インスタンスワイズなジオメトリを理解することは、幅広い視覚モデルにとって難しいタスクである。
専門的なシステムは存在するが、現代美術は高価な入力形式(分類ラベル、二項セグメンテーションマスク)と推論コスト(前方パスの2倍)に依存している。
我々は、これらの制限を、全体的順序予測が可能なネットワークであるInstaFormerの提案によって緩和する。
つまり、入力されたRGBイメージのみを前提として、InstaFormerは、シーン内のすべてのインスタンスの完全なオクルージョンとディープオーダを、単一のフォワードパスで返します。
コアとなるInstaFormerは、オブジェクトクエリと、補完的な情報を持ちながら、同じオブジェクトを意味的に表現する潜在マスク記述子間のインタラクションに依存している。
当社のアプローチを総合的にベンチマークして,その有効性を強調します。
私たちのコードとモデルはオープンソースで、このURLで利用可能です。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Lift, Splat, Map: Lifting Foundation Masks for Label-Free Semantic Scene Completion [7.781799395896687]
本研究では,鳥の視線における連続的,オープンなセマンティクスと高度認識の表現を予測するためのLSMapを提案する。
我々のモデルは1枚のRGBD画像しか必要とせず、人間のラベルを必要とせず、リアルタイムに動作する。
事前学習された表現は、教師なしのセマンティックシーンの完了時に、既存の視覚基盤モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T18:08:05Z) - Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From
Learned Pairwise Affinity [59.1823948436411]
我々は、マスク提案のための新しいアプローチ、ジェネリックグループネットワーク(GGN)を提案する。
我々のアプローチは、ピクセル親和性の局所測定とインスタンスレベルのマスク監視を組み合わせることで、データの多様性が許容するほど汎用的なモデルを設計したトレーニングレギュレータを生成する。
論文 参考訳(メタデータ) (2022-04-12T22:37:49Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。