論文の概要: Task-specific Scene Structure Representations
- arxiv url: http://arxiv.org/abs/2301.00555v1
- Date: Mon, 2 Jan 2023 08:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:59:24.443512
- Title: Task-specific Scene Structure Representations
- Title(参考訳): タスク固有のシーン構造表現
- Authors: Jisu Shin, Seunghyun Shin and Hae-Gon Jeon
- Abstract要約: 本研究では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
- 参考スコア(独自算出の注目度): 13.775485887433815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the informative structures of scenes is essential for low-level
vision tasks. Unfortunately, it is difficult to obtain a concrete visual
definition of the informative structures because influences of visual features
are task-specific. In this paper, we propose a single general neural network
architecture for extracting task-specific structure guidance for scenes. To do
this, we first analyze traditional spectral clustering methods, which computes
a set of eigenvectors to model a segmented graph forming small compact
structures on image domains. We then unfold the traditional graph-partitioning
problem into a learnable network, named \textit{Scene Structure Guidance
Network (SSGNet)}, to represent the task-specific informative structures. The
SSGNet yields a set of coefficients of eigenvectors that produces explicit
feature representations of image structures. In addition, our SSGNet is
light-weight ($\sim$ 55K parameters), and can be used as a plug-and-play module
for off-the-shelf architectures. We optimize the SSGNet without any supervision
by proposing two novel training losses that enforce task-specific scene
structure generation during training. Our main contribution is to show that
such a simple network can achieve state-of-the-art results for several
low-level vision applications including joint upsampling and image denoising.
We also demonstrate that our SSGNet generalizes well on unseen datasets,
compared to existing methods which use structural embedding frameworks. Our
source codes are available at https://github.com/jsshin98/SSGNet.
- Abstract(参考訳): 低レベルの視覚タスクには,シーンの情報構造を理解することが不可欠である。
残念ながら、視覚特徴の影響がタスク固有のため、情報構造を具体的に視覚的に定義することは困難である。
本稿では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
そこで我々はまず,固有ベクトルの集合を計算し,画像領域上の小さなコンパクトな構造を形成するセグメントグラフをモデル化する,従来のスペクトルクラスタリング手法を解析する。
次に、タスク固有の情報構造を表現するために、従来のグラフ分割問題を学習可能なネットワーク、 \textit{scene structure guidance network (ssgnet) に展開する。
SSGNetは、画像構造の明示的な特徴表現を生成する固有ベクトルの一連の係数を生成する。
さらに、当社のSSGNetは軽量($55K)で、オフザシェルフアーキテクチャのプラグイン・アンド・プレイモジュールとして使用することができます。
訓練中にタスク固有のシーン構造生成を強制する2つの新しいトレーニング損失を提案することにより、監督なしでssgnetを最適化する。
我々の主な貢献は、ジョイントアップサンプリングやイメージデノーミングを含むいくつかの低レベル視覚アプリケーションに対して、そのような単純なネットワークが最先端の成果を得られることを示すことである。
また、我々のSSGNetは構造的な埋め込みフレームワークを使用する既存の手法と比較して、目に見えないデータセットをうまく一般化しています。
ソースコードはhttps://github.com/jsshin98/ssgnetで入手できます。
関連論文リスト
- Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Node Classification via Semantic-Structural Attention-Enhanced Graph Convolutional Networks [0.9463895540925061]
SSA-GCN(Semantic-structure attention-enhanced graph convolutional Network)を導入する。
グラフ構造をモデル化するだけでなく、分類性能を高めるために一般化されていない特徴を抽出する。
Cora と CiteSeer のデータセットに対する実験により,提案手法による性能改善が実証された。
論文 参考訳(メタデータ) (2024-03-24T06:28:54Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation [20.148175528691905]
本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-08-12T07:58:13Z) - Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。
この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-08-06T04:38:38Z) - Graph Structural-topic Neural Network [35.27112594356742]
Graph Convolutional Networks(GCNs)は、ノードのローカル機能を効果的に収集することで、大きな成功を収めた。
本稿では,グラフのトピックモデルを利用したGCNモデルであるGraphSTONEを提案する。
ノードの特徴と構造的トピックの特徴を統一する多視点GCNを設計し、構造的トピックを利用して集約を誘導する。
論文 参考訳(メタデータ) (2020-06-25T09:47:21Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。