論文の概要: Visual Relationship Detection using Scene Graphs: A Survey
- arxiv url: http://arxiv.org/abs/2005.08045v1
- Date: Sat, 16 May 2020 17:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:32:55.422493
- Title: Visual Relationship Detection using Scene Graphs: A Survey
- Title(参考訳): シーングラフを用いた視覚的関係検出:サーベイ
- Authors: Aniket Agarwal, Ayush Mangal, Vipul
- Abstract要約: シーングラフ(Scene Graph)は、シーンとその中のさまざまな関係をよりよく表現するためのテクニックである。
本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
- 参考スコア(独自算出の注目度): 1.3505077405741583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding a scene by decoding the visual relationships depicted in an
image has been a long studied problem. While the recent advances in deep
learning and the usage of deep neural networks have achieved near human
accuracy on many tasks, there still exists a pretty big gap between human and
machine level performance when it comes to various visual relationship
detection tasks. Developing on earlier tasks like object recognition,
segmentation and captioning which focused on a relatively coarser image
understanding, newer tasks have been introduced recently to deal with a finer
level of image understanding. A Scene Graph is one such technique to better
represent a scene and the various relationships present in it. With its wide
number of applications in various tasks like Visual Question Answering,
Semantic Image Retrieval, Image Generation, among many others, it has proved to
be a useful tool for deeper and better visual relationship understanding. In
this paper, we present a detailed survey on the various techniques for scene
graph generation, their efficacy to represent visual relationships and how it
has been used to solve various downstream tasks. We also attempt to analyze the
various future directions in which the field might advance in the future. Being
one of the first papers to give a detailed survey on this topic, we also hope
to give a succinct introduction to scene graphs, and guide practitioners while
developing approaches for their applications.
- Abstract(参考訳): 画像に描かれた視覚的関係をデコードすることでシーンを理解することは、長い間研究されてきた問題である。
ディープラーニングの最近の進歩とディープニューラルネットワークの利用は多くのタスクで人間の精度に近いものになっているが、さまざまな視覚的関係検出タスクに関しては、人間とマシンレベルのパフォーマンスにはかなり大きなギャップがある。
比較的粗い画像理解に焦点を当てたオブジェクト認識、セグメンテーション、キャプションといった初期のタスクに基づいて、より詳細な画像理解を扱う新しいタスクが最近導入された。
シーングラフはシーンとその中の様々な関係をよりよく表現するためのテクニックである。
Visual Question Answering, Semantic Image Retrieval, Image Generationなど,さまざまなタスクに幅広く応用されていることから,より深い視覚的関係理解のための有用なツールであることが証明された。
本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
また、将来、フィールドが進むであろう様々な将来方向についても分析を試みる。
このトピックに関する詳細な調査を行った最初の論文の1つとして、シーングラフを簡潔に紹介し、アプリケーションへのアプローチを開発しながら実践者をガイドしたいと考えています。
関連論文リスト
- Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question
Answering [13.886692497676659]
Graphhopperは知識グラフ推論、コンピュータビジョン、自然言語処理技術を統合することでタスクにアプローチする新しい手法である。
画像中のオブジェクトとその属性と相互関係を記述したシーングラフを導出する。
強化学習エージェントは、抽出されたシーングラフ上でマルチホップで自律的にナビゲートし、推論経路を生成するように訓練される。
論文 参考訳(メタデータ) (2021-07-13T18:33:04Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z) - Understanding the Role of Scene Graphs in Visual Question Answering [26.02889386248289]
我々はGQAデータセット上で実験を行い、計数、構成性、高度な推論能力を必要とする質問の挑戦的なセットを示す。
我々は,シーングラフに使用する画像+質問アーキテクチャを採用し,未認識画像の様々なシーングラフ生成手法を評価し,人間の注釈と自動生成シーングラフを活用するためのトレーニングカリキュラムを提案する。
視覚質問応答におけるシーングラフの利用に関する多面的研究を行い,本研究を第一種とした。
論文 参考訳(メタデータ) (2021-01-14T07:27:37Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。