論文の概要: GPTR: Gestalt-Perception Transformer for Diagram Object Detection
- arxiv url: http://arxiv.org/abs/2212.14232v1
- Date: Thu, 29 Dec 2022 09:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:39:12.150795
- Title: GPTR: Gestalt-Perception Transformer for Diagram Object Detection
- Title(参考訳): GPTR:図形オブジェクト検出のためのゲシュタルト知覚変換器
- Authors: Xin Hu, Lingling Zhang, Jun Liu, Jinfu Fan, Yang You, Yaqiang Wu
- Abstract要約: 本稿では,エンコーダ・デコーダアーキテクチャに基づくダイアグラムオブジェクト検出のためのトランスフォーマモデルを提案する。
提案手法は,ダイアグラムオブジェクト検出タスクにおいて,最も優れた結果が得られることを示す。
また,本モデルでは,自然画像オブジェクトの検出において,競合相手に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 17.80855433725316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagram object detection is the key basis of practical applications such as
textbook question answering. Because the diagram mainly consists of simple
lines and color blocks, its visual features are sparser than those of natural
images. In addition, diagrams usually express diverse knowledge, in which there
are many low-frequency object categories in diagrams. These lead to the fact
that traditional data-driven detection model is not suitable for diagrams. In
this work, we propose a gestalt-perception transformer model for diagram object
detection, which is based on an encoder-decoder architecture. Gestalt
perception contains a series of laws to explain human perception, that the
human visual system tends to perceive patches in an image that are similar,
close or connected without abrupt directional changes as a perceptual whole
object. Inspired by these thoughts, we build a gestalt-perception graph in
transformer encoder, which is composed of diagram patches as nodes and the
relationships between patches as edges. This graph aims to group these patches
into objects via laws of similarity, proximity, and smoothness implied in these
edges, so that the meaningful objects can be effectively detected. The
experimental results demonstrate that the proposed GPTR achieves the best
results in the diagram object detection task. Our model also obtains comparable
results over the competitors in natural image object detection.
- Abstract(参考訳): ダイアグラムオブジェクト検出は、教科書質問応答などの実践的応用の鍵となる基礎である。
図は主に単純な線と色ブロックで構成されているため、その視覚的特徴は自然画像よりも広い。
加えて、ダイアグラムは通常、ダイアグラムに多くの低周波オブジェクトカテゴリがある多様な知識を表現する。
これらのことは、従来のデータ駆動検出モデルは図に適さないという事実につながります。
本稿では,エンコーダ・デコーダアーキテクチャに基づく図形物体検出のためのgestalt-perception transformerモデルを提案する。
ゲシュタルト知覚(gestalt perception)は、人間の知覚を説明する一連の法則を含み、人間の視覚系は、物体全体の知覚として突然の方向の変化を伴わずに、類似、近接、接続した画像のパッチを知覚する傾向がある。
これらの考え方に触発されて,ノードとしてのダイアグラムパッチとエッジとしてのパッチの関係からなるトランスフォーマエンコーダにgestalt-perception graphを構築する。
このグラフは、これらのエッジに暗示される類似性、近接性、滑らか性の法則により、これらのパッチをオブジェクトに分類することを目的としており、意味のあるオブジェクトを効果的に検出することができる。
実験の結果,提案したGPTRはダイアグラムオブジェクト検出タスクにおいて最良の結果が得られることが示された。
我々のモデルは、自然画像オブジェクト検出の競合製品と同等の結果を得る。
関連論文リスト
- Detecting Objects with Context-Likelihood Graphs and Graph Refinement [45.70356990655389]
本研究の目的は,オブジェクトと関係を別々に学習する既存の手法とは対照的に,オブジェクトの関係分布を共同で学習することである。
本稿では,オブジェクト間関係と初期クラス予測から画像のグラフィカルな表現を生成する新しい手法を提案する。
次に,エネルギーに基づくモデリング手法を用いて接合部を学習し,与えられた画像に対して文脈類似グラフを反復的に改良する。
論文 参考訳(メタデータ) (2022-12-23T15:27:21Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Graph Reasoning Transformer for Image Parsing [67.76633142645284]
本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。
従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。
その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-20T08:21:37Z) - PoserNet: Refining Relative Camera Poses Exploiting Object Detections [14.611595909419297]
我々は、明示的な意味的オブジェクト検出よりも、ポーズ推定問題を導くために、オブジェクトネス領域を使用する。
本稿では,ペアワイド相対カメラのポーズを近似的に改善する軽量グラフネットワーク Pose Refiner Network (PoserNet) を提案する。
グラフのサイズによって異なる7-Scenesデータセットを評価し、このプロセスが最適化に基づくMotion Averagingアルゴリズムにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-07-19T17:58:33Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - BGT-Net: Bidirectional GRU Transformer Network for Scene Graph
Generation [0.15469452301122172]
シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。
画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。
このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。
論文 参考訳(メタデータ) (2021-09-11T19:14:40Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z) - Epipolar-Guided Deep Object Matching for Scene Change Detection [23.951526610952765]
本稿では,オブジェクト指向変化検出ネットワーク(OBJ-CDNet)について述べる。
移動カメラは、カメラの軌跡とシャッタータイミングの違いにより、毎回異なる視点から画像をキャプチャする。
本稿では,画像ペア間のオブジェクト対応を確立するディープグラフマッチングネットワークを提案する。
論文 参考訳(メタデータ) (2020-07-30T15:48:40Z) - GeoGraph: Learning graph-based multi-view object detection with
geometric cues end-to-end [10.349116753411742]
複数のビューから静的な都市オブジェクトを検出するエンド・ツー・エンドの学習可能なアプローチを提案する。
提案手法はグラフニューラルネットワーク(GNN)を用いて全ての物体を検出し,その位置を出力する。
我々のGNNは、相対的なポーズと画像の証拠を同時にモデル化し、任意の数の入力ビューを扱うことができる。
論文 参考訳(メタデータ) (2020-03-23T09:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。