論文の概要: Location-Free Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.10944v1
- Date: Mon, 20 Mar 2023 08:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:11:29.396017
- Title: Location-Free Scene Graph Generation
- Title(参考訳): ロケーションフリーシーングラフ生成
- Authors: Ege \"Ozsoy, Felix Holm, Tobias Czempiel, Nassir Navab, Benjamin Busam
- Abstract要約: シーングラフ生成(SGG)は、困難な視覚的理解課題である。
シーンにおけるエンティティの検出と、それら間の関係を結合する。
ローカライズラベルの必要性は、アノテーションのコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げます。
位置自由なシーングラフ生成を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。
- 参考スコア(独自算出の注目度): 43.68679886516574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) is a challenging visual understanding task. It
combines the detection of entities and relationships between them in a scene.
Both previous works and existing evaluation metrics rely on bounding box
labels, even though many downstream scene graph applications do not need
location information. The need for localization labels significantly increases
the annotation cost and hampers the creation of more and larger scene graph
datasets. We suggest breaking the dependency of scene graphs on bounding box
labels by proposing location-free scene graph generation (LF-SGG). This new
task aims at predicting instances of entities, as well as their relationships,
without spatial localization. To objectively evaluate the task, the predicted
and ground truth scene graphs need to be compared. We solve this NP-hard
problem through an efficient algorithm using branching. Additionally, we design
the first LF-SGG method, Pix2SG, using autoregressive sequence modeling. Our
proposed method is evaluated on Visual Genome and 4D-OR. Although using
significantly fewer labels during training, we achieve 74.12\% of the
location-supervised SOTA performance on Visual Genome and even outperform the
best method on 4D-OR.
- Abstract(参考訳): シーングラフ生成(SGG)は、困難な視覚的理解課題である。
シーンにおけるエンティティの検出と、それら間の関係を結合する。
以前の作業と既存の評価指標は、多くの下流のシーングラフアプリケーションでは位置情報を必要としないが、バウンディングボックスラベルに依存している。
ローカライズラベルの必要性はアノテーションコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げている。
位置自由なシーングラフ生成(LF-SGG)を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。
このタスクは,空間的局所化を伴わずに,エンティティのインスタンスと関係性を予測することを目的としている。
タスクを客観的に評価するには、予測された真実と地上の真実のシーングラフを比較する必要がある。
このnp-hard問題を分岐法を用いて効率的なアルゴリズムで解く。
さらに,自己回帰シーケンスモデルを用いて,最初のLF-SGG法であるPix2SGを設計する。
提案手法は視覚ゲノムと4D-ORを用いて評価する。
トレーニング中にラベルが大幅に少ないが、位置教師付きSOTAパフォーマンスの74.12\%をVisual Genomeで達成し、4D-ORで最高の方法よりも優れていた。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。