論文の概要: Scene Graph Generation with Geometric Context
- arxiv url: http://arxiv.org/abs/2111.13131v1
- Date: Thu, 25 Nov 2021 15:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 07:03:09.443218
- Title: Scene Graph Generation with Geometric Context
- Title(参考訳): 幾何学的文脈を用いたシーングラフ生成
- Authors: Vishal Kumar, Albert Mundu, Satish Kumar Singh
- Abstract要約: 画像の視覚的に接地されたグラフィカルな構造であるシーングラフは、画像理解タスクを単純化するのに非常に役立ちます。
視覚シーンをより幾何学的に理解するために,Geometric Contextというポストプロセッシングアルゴリズムを導入する。
このコンテキストを利用して、オブジェクトペア間の方向と距離を計算する。
- 参考スコア(独自算出の注目度): 12.074766935042586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation has gained much attention in computer vision research
with the growing demand in image understanding projects like visual question
answering, image captioning, self-driving cars, crowd behavior analysis,
activity recognition, and more. Scene graph, a visually grounded graphical
structure of an image, immensely helps to simplify the image understanding
tasks. In this work, we introduced a post-processing algorithm called Geometric
Context to understand the visual scenes better geometrically. We use this
post-processing algorithm to add and refine the geometric relationships between
object pairs to a prior model. We exploit this context by calculating the
direction and distance between object pairs. We use Knowledge Embedded Routing
Network (KERN) as our baseline model, extend the work with our algorithm, and
show comparable results on the recent state-of-the-art algorithms.
- Abstract(参考訳): Scene Graph Generationは、視覚的な質問応答、画像キャプション、自動運転車、群衆の行動分析、アクティビティ認識など、画像理解プロジェクトへの需要が高まり、コンピュータビジョン研究で注目を集めている。
画像の視覚的に接地されたグラフィカルな構造であるシーングラフは、画像理解タスクを単純化するのに非常に役立ちます。
本研究では,視覚シーンをより幾何学的に理解するために,Geometric Contextというポストプロセッシングアルゴリズムを導入した。
この後処理アルゴリズムを用いて,対象対間の幾何学的関係を先行モデルに追加・洗練する。
このコンテキストを利用して、オブジェクトペア間の方向と距離を計算する。
私たちはベースラインモデルとしてknowledge embedded routing network(kern)を使用し、アルゴリズムで作業を拡張し、最新の最先端アルゴリズムで比較結果を示します。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Graph Neural Networks in Vision-Language Image Understanding: A Survey [6.813036707969848]
2次元画像理解はコンピュータビジョンの複雑な問題である。
それは人間レベルのシーン理解を提供する鍵を握る。
近年、グラフニューラルネットワーク(GNN)は多くの2次元画像理解パイプラインの標準コンポーネントとなっている。
論文 参考訳(メタデータ) (2023-03-07T09:56:23Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering [13.886692497676659]
Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
論文 参考訳(メタデータ) (2021-07-13T18:33:04Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。