論文の概要: HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic
Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.15994v1
- Date: Tue, 28 Mar 2023 14:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 15:00:10.729402
- Title: HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic
Scene Graph Generation
- Title(参考訳): HiLo:unbiased Panoptic Scene Graph 生成のための高周波数関係の爆発
- Authors: Zijian Zhou, Miaojing Shi, Holger Caesar
- Abstract要約: Panoptic Scene Graph Generation (PSG) は、画像のセグメント化と、被写体、オブジェクト、およびそれらの関係を抽出してシーングラフを構築することを目的としている。
この課題は関係カテゴリーの長い問題に悩まされ、偏りのある手法は高周波関係に傾倒する。
既存のバイアスのない手法は、低周波関係を支持するためにデータ/ロスリバランシングによって、長い尾の問題に対処する。
既存の手法は互いに有利だが,提案するHiLoフレームワークでは,低周波・高周波関係に特化している。
- 参考スコア(独自算出の注目度): 12.676356746752893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph generation (PSG) is a recently proposed task in image
scene understanding that aims to segment the image and extract triplets of
subjects, objects and their relations to build a scene graph. This task is
particularly challenging for two reasons. First, it suffers from a long-tail
problem in its relation categories, making naive biased methods more inclined
to high-frequency relations. Existing unbiased methods tackle the long-tail
problem by data/loss rebalancing to favor low-frequency relations. Second, a
subject-object pair can have two or more semantically overlapping relations.
While existing methods favor one over the other, our proposed HiLo framework
lets different network branches specialize on low and high frequency relations,
enforce their consistency and fuse the results. To the best of our knowledge we
are the first to propose an explicitly unbiased PSG method. In extensive
experiments we show that our HiLo framework achieves state-of-the-art results
on the PSG task. We also apply our method to the Scene Graph Generation task
that predicts boxes instead of masks and see improvements over all baseline
methods.
- Abstract(参考訳): パノプティック・シーングラフ生成(PSG)は画像シーン理解において最近提案された課題であり、被験者、対象物、それらの関係を分割してシーングラフを構築することを目的としている。
この課題は2つの理由から特に難しい。
第一に、関係カテゴリーの長い問題に悩まされ、偏りのある手法が高周波関係に傾いている。
既存の非バイアス法は、低周波関係を好むデータ/損失再バランスによって、ロングテール問題に取り組む。
第二に、対象と対象のペアは2つ以上の意味的に重なり合う関係を持つことができる。
既存の手法は相互に有利だが,提案するHiLoフレームワークでは,低周波・高周波関係に特化して,その一貫性を強制し,結果を融合させる。
我々の知る限りでは、我々は最初に明らかに偏りのないPSG法を提案する。
広範にわたる実験により,我々のHiLoフレームワークはPSGタスクにおける最先端の処理結果が得られることを示した。
また、マスクの代わりにボックスを予測するScene Graph Generationタスクにもメソッドを適用し、すべてのベースラインメソッドの改善を確認します。
関連論文リスト
- Pair then Relation: Pair-Net for Panoptic Scene Graph Generation [54.92476119356985]
Panoptic Scene Graph (PSG) は、ボックスの代わりにパン光学セグメンテーションを使用して、より包括的なシーングラフ表現を作成することを目的としている。
現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。
Pair then Relation (Pair-Net) - Pair Proposal Network (PPN) を用いて、対象と対象間の疎対関係を学習・フィルタリングする。
論文 参考訳(メタデータ) (2023-07-17T17:58:37Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - Bipartite Graph Reasoning GANs for Person Image Generation [159.00654368677513]
本稿では,難易度の高い人物画像生成タスクのための新しいBipartite Graph Reasoning GAN(BiGraphGAN)を提案する。
提案するグラフ生成器は,主にポーズ・ツー・プレイスとポーズ・ツー・イメージの関係をモデル化する2つの新しいブロックから構成される。
論文 参考訳(メタデータ) (2020-08-10T19:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。