論文の概要: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.09191v1
- Date: Fri, 12 Jul 2024 11:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:47:49.930847
- Title: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation
- Title(参考訳): 難易度から難易度へ:ロバストなパノプティカルシーングラフ生成のための曲線形状認識特徴を学習する
- Authors: Hanrong Shi, Lin Li, Jun Xiao, Yueting Zhuang, Long Chen,
- Abstract要約: パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。
そこで本研究では,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。
本稿では,人間の認識からインスピレーションを得た形状認識機能を,使い易い方法で統合することを提案する。
- 参考スコア(独自算出の注目度): 41.88875921385206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic Scene Graph Generation (PSG) aims to generate a comprehensive graph-structure representation based on panoptic segmentation masks. Despite remarkable progress in PSG, almost all existing methods neglect the importance of shape-aware features, which inherently focus on the contours and boundaries of objects. To bridge this gap, we propose a model-agnostic Curricular shApe-aware FEature (CAFE) learning strategy for PSG. Specifically, we incorporate shape-aware features (i.e., mask features and boundary features) into PSG, moving beyond reliance solely on bbox features. Furthermore, drawing inspiration from human cognition, we propose to integrate shape-aware features in an easy-to-hard manner. To achieve this, we categorize the predicates into three groups based on cognition learning difficulty and correspondingly divide the training process into three stages. Each stage utilizes a specialized relation classifier to distinguish specific groups of predicates. As the learning difficulty of predicates increases, these classifiers are equipped with features of ascending complexity. We also incorporate knowledge distillation to retain knowledge acquired in earlier stages. Due to its model-agnostic nature, CAFE can be seamlessly incorporated into any PSG model. Extensive experiments and ablations on two PSG tasks under both robust and zero-shot PSG have attested to the superiority and robustness of our proposed CAFE, which outperforms existing state-of-the-art methods by a large margin.
- Abstract(参考訳): パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。
PSGの顕著な進歩にもかかわらず、既存のほとんどの手法は、本質的には輪郭やオブジェクトの境界に焦点をあてる形状認識の特徴の重要性を無視している。
このギャップを埋めるために,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。
具体的には、形状認識機能(マスク機能やバウンダリ機能など)をPSGに組み込んで、bbox機能のみに依存しないようにします。
さらに, 人間の認識からインスピレーションを得た形状認識機能を, 容易かつハードな方法で統合することを提案する。
そこで我々は,認識学習の難しさに基づいて,述語を3つのグループに分類し,学習過程を3つの段階に分けた。
各段階は、特定の述語群を区別するために特殊関係分類器を使用する。
述語学習の難しさが増大するにつれて、これらの分類器は複雑性を上昇させる特徴を備えている。
また,早期に獲得した知識を維持するため,知識蒸留も取り入れた。
モデルに依存しない性質のため、CAFEは任意のPSGモデルにシームレスに組み込むことができる。
強靭性PSGとゼロショットPSGの両条件下での2つのPSGタスクに対する広範な実験と改善により,提案したCAFEの優位性と堅牢性が証明された。
関連論文リスト
- It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。
この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。
2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文 参考訳(メタデータ) (2024-11-16T08:54:27Z) - Subgraph-Aware Training of Language Models for Knowledge Graph Completion Using Structure-Aware Contrastive Learning [4.741342276627672]
微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。
そこで本研究では,KGC(SATKGC)のためのサブグラフ認識学習フレームワークを提案する。 (i)サブグラフ認識のミニバッチ化により,ハードネガティブサンプリングの促進とトレーニング中のエンティティ発生頻度の不均衡を軽減すること,および (ii)知識グラフの構造特性の観点から,よりハードなインバッチ負三重項とハードポジティブ三重項にフォーカスする新たなコントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-07-17T16:25:37Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。