Fugu-MT 論文翻訳(概要): From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation

論文の概要: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation

arxiv url: http://arxiv.org/abs/2407.09191v1
Date: Fri, 12 Jul 2024 11:48:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-15 23:47:49.930847
Title: From Easy to Hard: Learning Curricular Shape-aware Features for Robust Panoptic Scene Graph Generation
Title（参考訳）: 難易度から難易度へ:ロバストなパノプティカルシーングラフ生成のための曲線形状認識特徴を学習する
Authors: Hanrong Shi, Lin Li, Jun Xiao, Yueting Zhuang, Long Chen,
Abstract要約: パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。そこで本研究では,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。本稿では,人間の認識からインスピレーションを得た形状認識機能を,使い易い方法で統合することを提案する。
参考スコア（独自算出の注目度）: 41.88875921385206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoptic Scene Graph Generation (PSG) aims to generate a comprehensive graph-structure representation based on panoptic segmentation masks. Despite remarkable progress in PSG, almost all existing methods neglect the importance of shape-aware features, which inherently focus on the contours and boundaries of objects. To bridge this gap, we propose a model-agnostic Curricular shApe-aware FEature (CAFE) learning strategy for PSG. Specifically, we incorporate shape-aware features (i.e., mask features and boundary features) into PSG, moving beyond reliance solely on bbox features. Furthermore, drawing inspiration from human cognition, we propose to integrate shape-aware features in an easy-to-hard manner. To achieve this, we categorize the predicates into three groups based on cognition learning difficulty and correspondingly divide the training process into three stages. Each stage utilizes a specialized relation classifier to distinguish specific groups of predicates. As the learning difficulty of predicates increases, these classifiers are equipped with features of ascending complexity. We also incorporate knowledge distillation to retain knowledge acquired in earlier stages. Due to its model-agnostic nature, CAFE can be seamlessly incorporated into any PSG model. Extensive experiments and ablations on two PSG tasks under both robust and zero-shot PSG have attested to the superiority and robustness of our proposed CAFE, which outperforms existing state-of-the-art methods by a large margin.
Abstract（参考訳）: パノプティック・シーングラフ生成(PSG)は、パノプティック・セグメンテーション・マスクに基づく総合的なグラフ構造表現を作成することを目的としている。 PSGの顕著な進歩にもかかわらず、既存のほとんどの手法は、本質的には輪郭やオブジェクトの境界に焦点をあてる形状認識の特徴の重要性を無視している。このギャップを埋めるために,PSG のためのモデルに依存しない shApe-aware feature (CAFE) 学習戦略を提案する。具体的には、形状認識機能(マスク機能やバウンダリ機能など)をPSGに組み込んで、bbox機能のみに依存しないようにします。さらに, 人間の認識からインスピレーションを得た形状認識機能を, 容易かつハードな方法で統合することを提案する。そこで我々は,認識学習の難しさに基づいて,述語を3つのグループに分類し,学習過程を3つの段階に分けた。各段階は、特定の述語群を区別するために特殊関係分類器を使用する。述語学習の難しさが増大するにつれて、これらの分類器は複雑性を上昇させる特徴を備えている。また,早期に獲得した知識を維持するため,知識蒸留も取り入れた。モデルに依存しない性質のため、CAFEは任意のPSGモデルにシームレスに組み込むことができる。強靭性PSGとゼロショットPSGの両条件下での2つのPSGタスクに対する広範な実験と改善により,提案したCAFEの優位性と堅牢性が証明された。

関連論文リスト

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。 textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。 textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文参考訳（メタデータ） (2025-10-15T06:37:33Z)
What Drives Compositional Generalization in Visual Generative Models? [56.01574461407906]
画像生成と映像生成において,様々なデザイン選択が構成一般化にどのように影響するかを体系的に研究する。 i)訓練対象が離散的あるいは連続的な分布に作用するか否か,および(ii)訓練中に構成概念に関する情報を提供する条件がどの程度あるか,という2つの要因を同定する。これらの知見に基づいて,MaskGITの離散的損失を補助的連続JEPAベースで緩和することにより,MaskGITのような離散モデルにおける構成性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-10-03T15:02:27Z)
GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers [47.92114255322673]
本研究では,視覚的に完璧な世代が表現の強化に必ずしも最適であるとは限らないことを実証的に見出した。その本質は、無関係な情報を緩和しながら、生成モデルからきめ細かい知識を効果的に抽出することにある。本稿では,学習に有用な視覚知識を優先するための2段階の学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-25T09:15:34Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Graph Self-Supervised Learning with Learnable Structural and Positional Encodings [39.20899720477907]
我々は、$k$-hopメッセージパッシングスキームを統合したGNNフレームワークであるemphGenHopNetを紹介する。また,学習過程全体を通してトポロジ的情報を組み込んだ構造的および位置対応GSSLフレームワークを提案する。我々の研究は、類似の局所構造を持つグラフと異なるグローバルトポロジを持つグラフを区別するGSSLの能力を大幅に向上させた。
論文参考訳（メタデータ） (2025-02-22T14:10:06Z)
It Takes Two: Accurate Gait Recognition in the Wild via Cross-granularity Alignment [72.75844404617959]
本稿では,XGait という新しい粒度アライメント歩行認識手法を提案する。この目的を達成するために、XGaitはまず2つのバックボーンエンコーダの分岐を含み、シルエットシーケンスとパーシングシーケンスを2つの潜在空間にマッピングする。 2つの大規模な歩行データセットの総合的な実験では、ランク1の精度が80.5%、CCPGが88.3%である。
論文参考訳（メタデータ） (2024-11-16T08:54:27Z)
Subgraph-Aware Training of Language Models for Knowledge Graph Completion Using Structure-Aware Contrastive Learning [4.741342276627672]
微調整事前学習言語モデル(PLM)は、最近知識グラフ補完(KGC)を改善する可能性を示している。そこで本研究では,KGC(SATKGC)のためのサブグラフ認識学習フレームワークを提案する。 (i)サブグラフ認識のミニバッチ化により,ハードネガティブサンプリングの促進とトレーニング中のエンティティ発生頻度の不均衡を軽減すること,および (ii)知識グラフの構造特性の観点から,よりハードなインバッチ負三重項とハードポジティブ三重項にフォーカスする新たなコントラスト学習を提案する。
論文参考訳（メタデータ） (2024-07-17T16:25:37Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Attribute-Aware Representation Rectification for Generalized Zero-Shot Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-23T11:30:32Z)
Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文参考訳（メタデータ） (2023-09-19T16:09:01Z)
GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文参考訳（メタデータ） (2023-09-02T12:07:21Z)
Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文参考訳（メタデータ） (2022-08-19T04:54:56Z)
Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。本稿では,問題を緩和するための新鮮で直接的な知見を提案する。提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文参考訳（メタデータ） (2022-03-15T03:08:27Z)
Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文参考訳（メタデータ） (2021-03-04T15:34:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。