論文の概要: Scene Structure Guidance Network: Unfolding Graph Partitioning into Pixel-Wise Feature Learning
- arxiv url: http://arxiv.org/abs/2301.00555v2
- Date: Tue, 03 Jun 2025 14:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.798961
- Title: Scene Structure Guidance Network: Unfolding Graph Partitioning into Pixel-Wise Feature Learning
- Title(参考訳): Scene Structure Guidance Network: グラフ分割をPixel-Wise特徴学習に展開する
- Authors: Jisu Shin, Seunghyun Shin, Hae-Gon Jeon,
- Abstract要約: 本研究では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
- 参考スコア(独自算出の注目度): 19.396709229328497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the informative structures of scenes is essential for low-level vision tasks. Unfortunately, it is difficult to obtain a concrete visual definition of the informative structures because influences of visual features are task-specific. In this paper, we propose a single general neural network architecture for extracting task-specific structure guidance for scenes. To do this, we first analyze traditional spectral clustering methods, which computes a set of eigenvectors to model a segmented graph forming small compact structures on image domains. We then unfold the traditional graph-partitioning problem into a learnable network, named \textit{Scene Structure Guidance Network (SSGNet)}, to represent the task-specific informative structures. The SSGNet yields a set of coefficients of eigenvectors that produces explicit feature representations of image structures. In addition, our SSGNet is light-weight ($\sim$ 56K parameters), and can be used as a plug-and-play module for off-the-shelf architectures. We optimize the SSGNet without any supervision by proposing two novel training losses that enforce task-specific scene structure generation during training. Our main contribution is to show that such a simple network can achieve state-of-the-art results for several low-level vision applications. We also demonstrate that our network generalizes well on unseen datasets, compared to existing methods which use structural embedding frameworks. We further propose a lighter version of SSGNet ($\sim$ 29K parameters) for depth computation, SSGNet-D, and successfully execute it on edge computing devices like Jetson AGX Orin, improving the performance of baseline network, even in the wild, with little computational delay.
- Abstract(参考訳): 低レベルの視覚タスクには,シーンの情報構造を理解することが不可欠である。
残念ながら、視覚的特徴の影響がタスク固有のため、情報的構造の具体的な視覚的定義を得ることは困難である。
本稿では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
そこで我々はまず,画像領域上の小さなコンパクトな構造を形成するセグメントグラフをモデル化するために,固有ベクトルの集合を計算する従来のスペクトルクラスタリング法を分析する。
次に、従来のグラフ分割問題を学習可能なネットワークに展開し、タスク固有の情報構造を表現するために、textit{Scene Structure Guidance Network (SSGNet) と呼ぶ。
SSGNetは、画像構造の明示的な特徴表現を生成する固有ベクトルの一連の係数を生成する。
さらに、当社のSSGNetは軽量(56Kのパラメータ)で、オフザシェルフアーキテクチャのプラグイン・アンド・プレイモジュールとして使用できます。
トレーニング中にタスク固有のシーン構造の生成を強制する2つの新しいトレーニング損失を提案することにより、SSGNetを監督せずに最適化する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
また、構造的な埋め込みフレームワークを使用する既存の手法と比較して、我々のネットワークは目に見えないデータセットをうまく一般化していることを示す。
さらに、深度計算、SSGNet-DのためのSSGNet($29K)の軽量バージョンを提案し、Jetson AGX Orinのようなエッジコンピューティングデバイス上でそれを実行することに成功した。
関連論文リスト
- Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Node Classification via Semantic-Structural Attention-Enhanced Graph Convolutional Networks [0.9463895540925061]
SSA-GCN(Semantic-structure attention-enhanced graph convolutional Network)を導入する。
グラフ構造をモデル化するだけでなく、分類性能を高めるために一般化されていない特徴を抽出する。
Cora と CiteSeer のデータセットに対する実験により,提案手法による性能改善が実証された。
論文 参考訳(メタデータ) (2024-03-24T06:28:54Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Graph Structural-topic Neural Network [35.27112594356742]
Graph Convolutional Networks(GCNs)は、ノードのローカル機能を効果的に収集することで、大きな成功を収めた。
本稿では,グラフのトピックモデルを利用したGCNモデルであるGraphSTONEを提案する。
ノードの特徴と構造的トピックの特徴を統一する多視点GCNを設計し、構造的トピックを利用して集約を誘導する。
論文 参考訳(メタデータ) (2020-06-25T09:47:21Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。