論文の概要: Learning Visual Commonsense for Robust Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2006.09623v2
- Date: Sat, 18 Jul 2020 11:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:59:51.303212
- Title: Learning Visual Commonsense for Robust Scene Graph Generation
- Title(参考訳): ロバストなシーングラフ生成のためのvisual commonsenseの学習
- Authors: Alireza Zareian and Zhecan Wang and Haoxuan You and Shih-Fu Chang
- Abstract要約: シーングラフ生成モデルは、野生における知覚の難しさのために間違いを犯しがちである。
本稿では,データから可視性や直感的な物理などの視覚的常識を自動取得する手法を提案する。
本モデルでは,どの手法よりもコモンセンスを学習し,最先端のシーングラフ生成手法の精度を向上させる。
- 参考スコア(独自算出の注目度): 49.208518291993705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation models understand the scene through object and
predicate recognition, but are prone to mistakes due to the challenges of
perception in the wild. Perception errors often lead to nonsensical
compositions in the output scene graph, which do not follow real-world rules
and patterns, and can be corrected using commonsense knowledge. We propose the
first method to acquire visual commonsense such as affordance and intuitive
physics automatically from data, and use that to improve the robustness of
scene understanding. To this end, we extend Transformer models to incorporate
the structure of scene graphs, and train our Global-Local Attention Transformer
on a scene graph corpus. Once trained, our model can be applied on any scene
graph generation model and correct its obvious mistakes, resulting in more
semantically plausible scene graphs. Through extensive experiments, we show our
model learns commonsense better than any alternative, and improves the accuracy
of state-of-the-art scene graph generation methods.
- Abstract(参考訳): シーングラフ生成モデルは、対象と述語認識を通じてシーンを理解するが、野生の知覚の課題のために誤りを生じやすい。
知覚誤差はしばしば、実世界の規則やパターンに従わず、常識的な知識を使って修正できる出力シーングラフの非感覚的な構成に繋がる。
そこで本研究では,データから手頃さや直感的物理学などの視覚常識を自動取得する最初の手法を提案し,それを用いてシーン理解の堅牢性を向上させる。
この目的のために、Transformerモデルを拡張してシーングラフの構造を取り入れ、シーングラフコーパス上でグローバルローカルアテンショントランスをトレーニングする。
トレーニングをすれば、私たちのモデルは任意のシーングラフ生成モデルに適用でき、明らかな間違いを修正できます。
大規模な実験を通じて,我々のモデルはどの手法よりも常識を学習し,最先端のシーングラフ生成手法の精度を向上させる。
関連論文リスト
- Uncovering Capabilities of Model Pruning in Graph Contrastive Learning [0.0]
我々は、拡張ビューではなく、異なるモデルバージョンを対比することで、グラフのコントラスト学習の問題を再構築する。
教師なしおよび転送学習によるグラフ分類に関する様々なベンチマークにおいて,本手法を広範囲に検証する。
論文 参考訳(メタデータ) (2024-10-27T07:09:31Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。