論文の概要: Relationformer: A Unified Framework for Image-to-Graph Generation
- arxiv url: http://arxiv.org/abs/2203.10202v1
- Date: Sat, 19 Mar 2022 00:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:13:32.904015
- Title: Relationformer: A Unified Framework for Image-to-Graph Generation
- Title(参考訳): Relationformer: 画像からグラフ生成のための統一フレームワーク
- Authors: Suprosanna Shit, Rajat Koner, Bastian Wittmann, Johannes Paetzold,
Ivan Ezhov, Hongwei Li, Jiazhen Pan, Sahand Sharifzadeh, Georgios Kaissis,
Volker Tresp, Bjoern Menze
- Abstract要約: この研究は、オブジェクトとその関係を共同で予測する一段階トランスフォーマーベースの統合フレームワークであるRelationformerを提案する。
我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れて、オブジェクト関係表現を共同で学習する。
複数、多種多様な、複数ドメインのデータセット上で、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.832626244362075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A comprehensive representation of an image requires understanding objects and
their mutual relationship, especially in image-to-graph generation, e.g., road
network extraction, blood-vessel network extraction, or scene graph generation.
Traditionally, image-to-graph generation is addressed with a two-stage approach
consisting of object detection followed by a separate relation prediction,
which prevents simultaneous object-relation interaction. This work proposes a
unified one-stage transformer-based framework, namely Relationformer, that
jointly predicts objects and their relations. We leverage direct set-based
object prediction and incorporate the interaction among the objects to learn an
object-relation representation jointly. In addition to existing [obj]-tokens,
we propose a novel learnable token, namely [rln]-token. Together with
[obj]-tokens, [rln]-token exploits local and global semantic reasoning in an
image through a series of mutual associations. In combination with the
pair-wise [obj]-token, the [rln]-token contributes to a computationally
efficient relation prediction. We achieve state-of-the-art performance on
multiple, diverse and multi-domain datasets that demonstrate our approach's
effectiveness and generalizability.
- Abstract(参考訳): 画像の包括的表現は、特に道路網抽出、血管網抽出、シーングラフ生成などの画像-グラフ生成において、オブジェクトとその相互関係を理解する必要がある。
伝統的に、画像対グラフ生成はオブジェクト検出と独立した関係予測からなる2段階のアプローチで対処され、同時にオブジェクト-関係の相互作用が防止される。
本研究は,オブジェクトとその関係を共同で予測する一段階トランスフォーマフレームワークであるrelationformerを提案する。
我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れ、オブジェクト関係表現を共同で学習する。
既存の [obj]-token に加えて,新しい学習可能なトークン [rln]-token を提案する。
obj-tokensとともに、[rln]-tokenは、一連の相互関連を通じて画像内の局所的およびグローバルな意味推論を利用する。
対の[obj]-tokenと組み合わせることで、[rln]-tokenは計算的に効率的な関係予測に寄与する。
当社のアプローチの有効性と汎用性を示す複数の多種多様なマルチドメインデータセット上で,最先端のパフォーマンスを実現する。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Detecting Objects with Context-Likelihood Graphs and Graph Refinement [45.70356990655389]
本研究の目的は,オブジェクトと関係を別々に学習する既存の手法とは対照的に,オブジェクトの関係分布を共同で学習することである。
本稿では,オブジェクト間関係と初期クラス予測から画像のグラフィカルな表現を生成する新しい手法を提案する。
次に,エネルギーに基づくモデリング手法を用いて接合部を学習し,与えられた画像に対して文脈類似グラフを反復的に改良する。
論文 参考訳(メタデータ) (2022-12-23T15:27:21Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。