論文の概要: Flexible ViG: Learning the Self-Saliency for Flexible Object Recognition
- arxiv url: http://arxiv.org/abs/2406.18585v1
- Date: Thu, 6 Jun 2024 08:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 05:40:31.452190
- Title: Flexible ViG: Learning the Self-Saliency for Flexible Object Recognition
- Title(参考訳): フレキシブルなViG:フレキシブルなオブジェクト認識のための自己満足度学習
- Authors: Lin Zuo, Kunshan Yang, Xianlong Tian, Kunbin He, Yongqi Ding, Mengmeng Jing,
- Abstract要約: 柔軟性のある物体を認識することは、本質的に多様な形状や大きさ、半透明な特性、曖昧な境界、微妙なクラス間の違いなど、大きな課題を生んでいる。
本稿では,フレキシブルビジョングラフニューラルネットワーク(FViG)を提案する。
- 参考スコア(独自算出の注目度): 3.5624857747396814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing computer vision methods mainly focus on the recognition of rigid objects, whereas the recognition of flexible objects remains unexplored. Recognizing flexible objects poses significant challenges due to their inherently diverse shapes and sizes, translucent attributes, ambiguous boundaries, and subtle inter-class differences. In this paper, we claim that these problems primarily arise from the lack of object saliency. To this end, we propose the Flexible Vision Graph Neural Network (FViG) to optimize the self-saliency and thereby improve the discrimination of the representations for flexible objects. Specifically, on one hand, we propose to maximize the channel-aware saliency by extracting the weight of neighboring nodes, which adapts to the shape and size variations in flexible objects. On the other hand, we maximize the spatial-aware saliency based on clustering to aggregate neighborhood information for the centroid nodes, which introduces local context information for the representation learning. To verify the performance of flexible objects recognition thoroughly, for the first time we propose the Flexible Dataset (FDA), which consists of various images of flexible objects collected from real-world scenarios or online. Extensive experiments evaluated on our Flexible Dataset demonstrate the effectiveness of our method on enhancing the discrimination of flexible objects.
- Abstract(参考訳): 既存のコンピュータビジョン手法は主に剛体物体の認識に焦点を当てているが、柔軟な物体の認識は未解明のままである。
柔軟性のある物体を認識することは、本質的に多様な形状や大きさ、半透明な特性、曖昧な境界、微妙なクラス間の違いなど、大きな課題を生んでいる。
本稿では,これらの問題の主な原因は,対象サリエンシの欠如にあると主張する。
この目的のために,フレキシブルビジョングラフニューラルネットワーク (FViG) を提案する。
具体的には、フレキシブルな物体の形状や大きさの変化に適応する隣り合うノードの重みを抽出することで、チャネル認識の精度を最大化することを提案する。
一方,センタロイドノードの周辺情報を集約するため,クラスタリングに基づく空間認識の精度を最大化し,表現学習のための局所的コンテキスト情報を導入する。
フレキシブルオブジェクト認識の性能を徹底的に検証するために、現実のシナリオやオンラインから収集されたフレキシブルオブジェクトのさまざまなイメージからなるフレキシブルデータセット(FDA)を初めて提案する。
フレキシブルデータセットで評価した広範囲な実験は、フレキシブルオブジェクトの識別性を高めるための手法の有効性を実証する。
関連論文リスト
- Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は従来の15タイルパズルをグリッドサイズと観測空間で拡張したベンチマークである。
SPGymは、潜在環境の動的性とアルゴリズム的問題を固定しつつ、表現学習課題のスケーリングを可能にする。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では,表現課題がスケールするにつれて,SPGymはエージェントの能力に基づいて効果的にエージェントを識別できることが示されている。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Joint Data and Feature Augmentation for Self-Supervised Representation
Learning on Point Clouds [4.723757543677507]
ユークリッド空間におけるデータ拡張と特徴空間における特徴拡張を組み合わせた融合コントラスト学習フレームワークを提案する。
提案手法の伝達性を検証するため,広範囲な対象分類実験と対象部分分割実験を行う。
実験の結果,提案フレームワークは,自己指導型でポイントクラウド表現を学習する上で有効であることが示された。
論文 参考訳(メタデータ) (2022-11-02T14:58:03Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。