論文の概要: Multi-label Classification with Panoptic Context Aggregation Networks
- arxiv url: http://arxiv.org/abs/2512.23486v1
- Date: Mon, 29 Dec 2025 14:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.531849
- Title: Multi-label Classification with Panoptic Context Aggregation Networks
- Title(参考訳): Panoptic Context Aggregation Networks を用いたマルチラベル分類
- Authors: Mingyuan Jiu, Hailong Zhu, Wenchuan Wei, Hichem Sahbi, Rongrong Ji, Mingliang Xu,
- Abstract要約: 本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
- 参考スコア(独自算出の注目度): 61.82285737410154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context modeling is crucial for visual recognition, enabling highly discriminative image representations by integrating both intrinsic and extrinsic relationships between objects and labels in images. A limitation in current approaches is their focus on basic geometric relationships or localized features, often neglecting cross-scale contextual interactions between objects. This paper introduces the Deep Panoptic Context Aggregation Network (PanCAN), a novel approach that hierarchically integrates multi-order geometric contexts through cross-scale feature aggregation in a high-dimensional Hilbert space. Specifically, PanCAN learns multi-order neighborhood relationships at each scale by combining random walks with an attention mechanism. Modules from different scales are cascaded, where salient anchors at a finer scale are selected and their neighborhood features are dynamically fused via attention. This enables effective cross-scale modeling that significantly enhances complex scene understanding by combining multi-order and cross-scale context-aware features. Extensive multi-label classification experiments on NUS-WIDE, PASCAL VOC2007, and MS-COCO benchmarks demonstrate that PanCAN consistently achieves competitive results, outperforming state-of-the-art techniques in both quantitative and qualitative evaluations, thereby substantially improving multi-label classification performance.
- Abstract(参考訳): コンテキストモデリングは、画像中のオブジェクトとラベルの内在的・外在的関係を統合することにより、高度に識別可能な画像表現を可能にする。
現在のアプローチの制限は、基本的な幾何学的関係や局所的な特徴に焦点をあてることであり、しばしばオブジェクト間のクロススケールな文脈的相互作用を無視している。
本稿では,高次元ヒルベルト空間におけるクロススケールな特徴集約を通じて,階層的に多階幾何学的文脈を統合する新しい手法であるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
特に、PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
異なるスケールのモジュールがカスケードされ、より微細なスケールのサリエントアンカーが選択され、近隣の特徴が注意によって動的に融合される。
これにより、マルチオーダーとクロススケールのコンテキスト認識機能を組み合わせることで、複雑なシーン理解を大幅に強化する、効果的なクロススケールモデリングが可能になる。
NUS-WIDE,PASCAL VOC2007,MS-COCOベンチマークの多言語分類実験により,PanCANは一貫して競争結果を達成し,定量評価と定性評価の両方において最先端技術を上回る性能を示し,多言語分類性能を大幅に向上させた。
関連論文リスト
- Wasserstein-Aligned Hyperbolic Multi-View Clustering [58.29261653100388]
本稿では,マルチビュークラスタリングのための新しいWasserstein-Aligned Hyperbolic(WAH)フレームワークを提案する。
本手法はビュー固有の双曲エンコーダを用いて特徴をローレンツ多様体に埋め込んで階層的セマンティックモデリングを行う。
論文 参考訳(メタデータ) (2025-12-10T07:56:19Z) - A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-15T01:13:50Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。