論文の概要: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.09191v1
- Date: Fri, 12 Jul 2024 11:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:47:49.930847
- Title: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation
- Title(参考訳): 難易度から難易度へ:ロバストなパノプティカルシーングラフ生成のための曲線形状認識特徴を学習する
- Authors: Hanrong Shi, Lin Li, Jun Xiao, Yueting Zhuang, Long Chen,
- Abstract要約: パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。
そこで本研究では,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。
本稿では,人間の認識からインスピレーションを得た形状認識機能を,使い易い方法で統合することを提案する。
- 参考スコア(独自算出の注目度): 41.88875921385206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic Scene Graph Generation (PSG) aims to generate a comprehensive graph-structure representation based on panoptic segmentation masks. Despite remarkable progress in PSG, almost all existing methods neglect the importance of shape-aware features, which inherently focus on the contours and boundaries of objects. To bridge this gap, we propose a model-agnostic Curricular shApe-aware FEature (CAFE) learning strategy for PSG. Specifically, we incorporate shape-aware features (i.e., mask features and boundary features) into PSG, moving beyond reliance solely on bbox features. Furthermore, drawing inspiration from human cognition, we propose to integrate shape-aware features in an easy-to-hard manner. To achieve this, we categorize the predicates into three groups based on cognition learning difficulty and correspondingly divide the training process into three stages. Each stage utilizes a specialized relation classifier to distinguish specific groups of predicates. As the learning difficulty of predicates increases, these classifiers are equipped with features of ascending complexity. We also incorporate knowledge distillation to retain knowledge acquired in earlier stages. Due to its model-agnostic nature, CAFE can be seamlessly incorporated into any PSG model. Extensive experiments and ablations on two PSG tasks under both robust and zero-shot PSG have attested to the superiority and robustness of our proposed CAFE, which outperforms existing state-of-the-art methods by a large margin.
- Abstract(参考訳): パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。
PSGの顕著な進歩にもかかわらず、既存のほとんどの手法は、本質的には輪郭やオブジェクトの境界に焦点をあてる形状認識の特徴の重要性を無視している。
このギャップを埋めるために,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。
具体的には、形状認識機能(マスク機能やバウンダリ機能など)をPSGに組み込んで、bbox機能のみに依存しないようにします。
さらに, 人間の認識からインスピレーションを得た形状認識機能を, 容易かつハードな方法で統合することを提案する。
そこで我々は,認識学習の難しさに基づいて,述語を3つのグループに分類し,学習過程を3つの段階に分けた。
各段階は、特定の述語群を区別するために特殊関係分類器を使用する。
述語学習の難しさが増大するにつれて、これらの分類器は複雑性を上昇させる特徴を備えている。
また,早期に獲得した知識を維持するため,知識蒸留も取り入れた。
モデルに依存しない性質のため、CAFEは任意のPSGモデルにシームレスに組み込むことができる。
強靭性PSGとゼロショットPSGの両条件下での2つのPSGタスクに対する広範な実験と改善により,提案したCAFEの優位性と堅牢性が証明された。
関連論文リスト
- Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T15:42:42Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。