論文の概要: SceneParser: Hierarchical Scene Parsing for Visual Semantics Understanding
- arxiv url: http://arxiv.org/abs/2605.14923v1
- Date: Thu, 14 May 2026 14:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.893572
- Title: SceneParser: Hierarchical Scene Parsing for Visual Semantics Understanding
- Title(参考訳): SceneParser: ビジュアルセマンティック理解のための階層的なシーン解析
- Authors: Pengxin Xu, Xincheng Lin, Luping Xiao, Qing Jiang, Meishan Zhang, Hao Fei, Shanghang Zhang, Xingyu Chen,
- Abstract要約: 一般的なシーン認識は、オブジェクト認識からオープンボキャブラリ接地、部分ローカライゼーション、アベイランス予測へと進歩してきた。
これらの機能は、インタラクション指向のシーン理解に必要な構造化された依存関係を捕捉することなく、オブジェクト、部品、またはインタラクションポイントをローカライズする独立した予測として実現されることが多い。
階層的シーンパーシング(Hierarchical Scene Parsing)は、物理的なシーンを明示的なシーンとして表現するインタラクション指向のパーシングタスクである。
- 参考スコア(独自算出の注目度): 81.36825413112614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: General scene perception has progressed from object recognition toward open-vocabulary grounding, part localization, and affordance prediction. Yet these capabilities are often realized as isolated predictions that localize objects, parts, or interaction points without capturing the structured dependencies needed for interaction-oriented scene understanding. To address this gap, we introduce Hierarchical Scene Parsing, an interaction-oriented parsing task that represents physical scenes as explicit scene -> object -> part -> affordance hierarchies with cross-level bindings. We instantiate this task with SceneParser, a VLM-based parser trained for unified hierarchical generation with structural-completion pseudo labels and curriculum learning. To support training and evaluation, we construct SceneParser-Bench, a large-scale benchmark built with a scalable hierarchical data engine, containing 110K training images, a 5K validation split, 777K objects, 1.14M parts, 1.74M affordance annotations, and 1.74M valid object-part-affordance chain instances. We further introduce Level-1 to Level-3 conditional metrics and ParseRate to evaluate localization, cross-level binding, and hierarchical completeness. Experiments show that existing MLLMs and perception-stitching pipelines struggle with hierarchical parsing on our SceneParser-Bench, while SceneParser achieves stronger structure-aware performance. Besides, ablations, evaluations on COCO and AGD20K, and a downstream planning probe demonstrate that our SceneParser is compatible with conventional tasks and provides an actionable representation for visual understanding.
- Abstract(参考訳): 一般的なシーン認識は、オブジェクト認識からオープンボキャブラリ接地、部分ローカライゼーション、アベイランス予測へと進歩してきた。
しかしこれらの機能は、インタラクション指向のシーン理解に必要な構造化された依存関係を捕捉することなく、オブジェクト、部品、またはインタラクションポイントをローカライズする独立した予測として実現されることが多い。
このギャップに対処するために、階層的シーンパーシング(Hierarchical Scene Parsing)という、物理的なシーンを明示的なシーンとして表現するインタラクション指向のパーシングタスクを導入する。
このタスクをVLMベースのパーサであるSceneParserでインスタンス化する。
トレーニングと評価をサポートするため,110Kのトレーニングイメージ,5Kの検証分割,777Kのオブジェクト,1.14Mのパーツ,1.74Mのアベイランスアノテーション,1.74Mの有効なオブジェクト分割チェーンインスタンスを含む,スケーラブルな階層型データエンジンを備えた大規模ベンチマークであるSceneParser-Benchを構築した。
さらに、レベル1からレベル3の条件付きメトリクスとParseRateを導入し、ローカライゼーション、クロスレベルバインディング、階層的完全性を評価します。
SceneParser-Benchでは,既存のMLLMと知覚整合パイプラインが階層解析に苦しむ一方で,SceneParserでは構造認識のパフォーマンスが向上している。
さらに、COCOとAGD20Kの評価、下流の計画調査は、SceneParserが従来のタスクと互換性があり、視覚的理解のための実行可能な表現を提供することを示した。
関連論文リスト
- SceneForge: Structured World Supervision from 3D Interventions [5.973748478214713]
マルチモーダル学習タスクは、編集、視点、シーンレベルの介入に対して一貫性のある監督を必要とする。
編集可能な3D世界状態から構造化された監視を生成する、介入駆動型フレームワークであるSceneForgeを提案する。
論文 参考訳(メタデータ) (2026-05-14T05:38:00Z) - Contextual inference from single objects in Vision-Language models [10.367669666212473]
一つのオブジェクトがどれくらいのシーンコンテキストを持つかは、人間のシーン知覚においてよく研究されている問題である。
この能力が視覚言語モデル(VLM)でどのように構成されるかはいまだに理解されていない。
本研究では,単一対象からの文脈推論の系統的・機械的解析を通じて,この問題を考察する。
論文 参考訳(メタデータ) (2026-03-20T13:24:15Z) - Object-Centric Framework for Video Moment Retrieval [15.916994168542345]
既存のモーメント検索手法の多くは、主にグローバルな視覚情報と意味情報をエンコードするフレームレベルの特徴の時間的シーケンスに依存している。
特に、オブジェクトレベルの時間的ダイナミクスは、主に見過ごされ、オブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチを制限する。
提案手法は,まずシーングラフを用いてクエリ関連オブジェクトを抽出し,次にビデオフレームからグラフを抽出して,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報や意味情報をエンコードするオブジェクトレベルの特徴系列を構築し、時間とともにオブジェクト間の関係時間的ローカライゼーションをモデル化するビデオトラックレット変換器で処理する。
論文 参考訳(メタデータ) (2025-12-20T17:44:53Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。