論文の概要: NODIS: Neural Ordinary Differential Scene Understanding
- arxiv url: http://arxiv.org/abs/2001.04735v3
- Date: Sat, 18 Jul 2020 20:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-01-11 12:41:44.590904
- Title: NODIS: Neural Ordinary Differential Scene Understanding
- Title(参考訳): nodis:神経的な常微分的シーン理解
- Authors: Cong Yuren, Hanno Ackermann, Wentong Liao, Michael Ying Yang, and Bodo
Rosenhahn
- Abstract要約: 画像中のすべてのオブジェクトを検出するだけでなく、それら間のすべての関係を識別する必要がある。
提案アーキテクチャは、エンドツーエンドの学習によってODEのニューラルバリアントを解くことにより、シーングラフの推論を行う。
Visual Genomeベンチマークでは、シーングラフ生成(SGGen)、分類(SGCls)、視覚的関係検出(PredCls)という3つのベンチマークタスクで最先端の結果が得られている。
- 参考スコア(独自算出の注目度): 35.37702159888773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image understanding is a challenging topic in computer vision. It
requires to detect all objects in an image, but also to identify all the
relations between them. Detected objects, their labels and the discovered
relations can be used to construct a scene graph which provides an abstract
semantic interpretation of an image. In previous works, relations were
identified by solving an assignment problem formulated as Mixed-Integer Linear
Programs. In this work, we interpret that formulation as Ordinary Differential
Equation (ODE). The proposed architecture performs scene graph inference by
solving a neural variant of an ODE by end-to-end learning. It achieves
state-of-the-art results on all three benchmark tasks: scene graph generation
(SGGen), classification (SGCls) and visual relationship detection (PredCls) on
Visual Genome benchmark.
- Abstract(参考訳): セマンティック画像理解はコンピュータビジョンにおける課題である。
画像中のすべてのオブジェクトを検出するだけでなく、それらの関係を識別する必要がある。
検出されたオブジェクト、ラベル、発見された関係を利用して、画像の抽象的な意味解釈を提供するシーングラフを構築することができる。
前回の研究では、混合整数線形プログラムとして定式化された割当問題を解くことで関係が特定された。
本研究では、この定式化を正規微分方程式(ODE)と解釈する。
提案するアーキテクチャは、エンドツーエンド学習によってodeのニューラル変種を解いてシーングラフ推論を行う。
Visual Genomeベンチマークでは、シーングラフ生成(SGGen)、分類(SGCls)、視覚的関係検出(PredCls)という3つのベンチマークタスクで最先端の結果が得られている。
関連論文リスト
- Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Scene Graph Generation with Geometric Context [12.074766935042586]
画像の視覚的に接地されたグラフィカルな構造であるシーングラフは、画像理解タスクを単純化するのに非常に役立ちます。
視覚シーンをより幾何学的に理解するために,Geometric Contextというポストプロセッシングアルゴリズムを導入する。
このコンテキストを利用して、オブジェクトペア間の方向と距離を計算する。
論文 参考訳(メタデータ) (2021-11-25T15:42:21Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Tackling the Challenges in Scene Graph Generation with Local-to-Global
Interactions [4.726777092009554]
SGG(Scene Graph Generation)タスクの根底にある課題に対する新たな洞察を求めている。
この分析に触発され、我々は新しいSGGフレームワークLOGIN(LoGIN)を設計した。
本フレームワークは,シーングラフを設計により局所的・言語的に予測し,相補性を生かした。
論文 参考訳(メタデータ) (2021-06-16T03:58:21Z) - RL-CSDia: Representation Learning of Computer Science Diagrams [25.66215925641988]
コンピュータサイエンスダイアグラム(csdia)という,図形図の新しいデータセットを構築する。
1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。
図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。
論文 参考訳(メタデータ) (2021-03-10T07:01:07Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。