論文の概要: A Semantic-Enhanced Heterogeneous Graph Learning Method for Flexible Objects Recognition
- arxiv url: http://arxiv.org/abs/2503.22079v1
- Date: Fri, 28 Mar 2025 01:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.536354
- Title: A Semantic-Enhanced Heterogeneous Graph Learning Method for Flexible Objects Recognition
- Title(参考訳): フレキシブル物体認識のための意味的拡張不均一グラフ学習法
- Authors: Kunshan Yang, Wenwei Luo, Yuguo Hu, Jiafu Yan, Mengmeng Jing, Lin Zuo,
- Abstract要約: フレキシブルオブジェクト認識のための意味強化ヘテロジニアスグラフ学習法を提案する。
適応走査モジュールを用いて意味的コンテキストを抽出し、様々な形状と大きさの柔軟なオブジェクトのマッチングを容易にする。
グラフ生成モジュールは、グローバルなビジュアルおよびローカルなセマンティックノードの特徴を集約し、柔軟なオブジェクトの認識を改善する。
- 参考スコア(独自算出の注目度): 3.5624857747396814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Flexible objects recognition remains a significant challenge due to its inherently diverse shapes and sizes, translucent attributes, and subtle inter-class differences. Graph-based models, such as graph convolution networks and graph vision models, are promising in flexible objects recognition due to their ability of capturing variable relations within the flexible objects. These methods, however, often focus on global visual relationships or fail to align semantic and visual information. To alleviate these limitations, we propose a semantic-enhanced heterogeneous graph learning method. First, an adaptive scanning module is employed to extract discriminative semantic context, facilitating the matching of flexible objects with varying shapes and sizes while aligning semantic and visual nodes to enhance cross-modal feature correlation. Second, a heterogeneous graph generation module aggregates global visual and local semantic node features, improving the recognition of flexible objects. Additionally, We introduce the FSCW, a large-scale flexible dataset curated from existing sources. We validate our method through extensive experiments on flexible datasets (FDA and FSCW), and challenge benchmarks (CIFAR-100 and ImageNet-Hard), demonstrating competitive performance.
- Abstract(参考訳): フレキシブルオブジェクト認識は、本質的に多様な形状とサイズ、半透明な属性、微妙なクラス間の違いのため、依然として重要な課題である。
グラフ畳み込みネットワークやグラフビジョンモデルといったグラフベースのモデルは、フレキシブルオブジェクト内の変数関係をキャプチャする能力のため、フレキシブルオブジェクト認識において有望である。
しかし、これらの手法は、大域的な視覚的関係に焦点を当てたり、意味や視覚的情報の整合に失敗したりすることが多い。
これらの制約を緩和するために,意味に富んだ異種グラフ学習法を提案する。
まず、適応走査モジュールを用いて識別的意味的コンテキストを抽出し、異なる形状や大きさの柔軟なオブジェクトのマッチングを容易にし、セマンティックノードと視覚ノードを整列させて、モーダルな特徴相関を強化する。
第二に、異種グラフ生成モジュールは、グローバルなビジュアルおよびローカルなセマンティックノードの特徴を集約し、柔軟なオブジェクトの認識を改善する。
さらに、既存のソースからキュレートされた大規模フレキシブルデータセットであるFSCWを紹介する。
フレキシブルデータセット (FDA と FSCW) およびベンチマーク (CIFAR-100 と ImageNet-Hard) に挑戦し,競争性能を実証した。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning [11.015244501780078]
本稿では,動的グラフ精錬法(SFDR)を用いた意味空間的特徴融合を提案する。
提案手法は,生成した記述の質を著しく向上させる。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-30T14:14:41Z) - Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Flexible ViG: Learning the Self-Saliency for Flexible Object Recognition [3.5624857747396814]
柔軟性のある物体を認識することは、本質的に多様な形状や大きさ、半透明な特性、曖昧な境界、微妙なクラス間の違いなど、大きな課題を生んでいる。
本稿では,フレキシブルビジョングラフニューラルネットワーク(FViG)を提案する。
論文 参考訳(メタデータ) (2024-06-06T08:55:06Z) - AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation [22.84527318463151]
マルチビューグラフニューラルネットワーク(MVGNN)は、オブジェクト表現の学習に様々なモダリティを活用するのに長けている。
既存の手法では、実世界の相違を見渡すモダリティを越えて同じ局所トポロジー構造を仮定する。
これらの問題に対処するため,適応型モーダリティ構造学習(AMoSL)を提案する。
論文 参考訳(メタデータ) (2024-06-04T14:24:30Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。