論文の概要: Generative Compositional Augmentations for Scene Graph Prediction
- arxiv url: http://arxiv.org/abs/2007.05756v3
- Date: Fri, 1 Oct 2021 15:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 12:49:30.219102
- Title: Generative Compositional Augmentations for Scene Graph Prediction
- Title(参考訳): シーングラフ予測のための生成的構成拡張
- Authors: Boris Knyazev, Harm de Vries, C\u{a}t\u{a}lina Cangea, Graham W.
Taylor, Aaron Courville, Eugene Belilovsky
- Abstract要約: シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
- 参考スコア(独自算出の注目度): 27.535630110794855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring objects and their relationships from an image in the form of a
scene graph is useful in many applications at the intersection of vision and
language. We consider a challenging problem of compositional generalization
that emerges in this task due to a long tail data distribution. Current scene
graph generation models are trained on a tiny fraction of the distribution
corresponding to the most frequent compositions, e.g. <cup, on, table>.
However, test images might contain zero- and few-shot compositions of objects
and relationships, e.g. <cup, on, surfboard>. Despite each of the object
categories and the predicate (e.g. 'on') being frequent in the training data,
the models often fail to properly understand such unseen or rare compositions.
To improve generalization, it is natural to attempt increasing the diversity of
the training distribution. However, in the graph domain this is non-trivial. To
that end, we propose a method to synthesize rare yet plausible scene graphs by
perturbing real ones. We then propose and empirically study a model based on
conditional generative adversarial networks (GANs) that allows us to generate
visual features of perturbed scene graphs and learn from them in a joint
fashion. When evaluated on the Visual Genome dataset, our approach yields
marginal, but consistent improvements in zero- and few-shot metrics. We analyze
the limitations of our approach indicating promising directions for future
research.
- Abstract(参考訳): 画像から物体とその関係をシーングラフとして推測することは、視覚と言語の交点にある多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
現在のシーングラフ生成モデルは、例えば<cup, on, table>のような最も頻繁な構成に対応する分布のごく一部に基づいて訓練される。
しかし,テスト画像には<cup, on, surf>など,オブジェクトとリレーションシップのゼロショットとマイショットの合成が含まれている可能性がある。
対象のカテゴリと述語(例えば'on')が訓練データに頻繁に含まれているにもかかわらず、モデルはしばしばそのような見当たらない、または稀な構成を適切に理解できていない。
一般化を改善するために、訓練分布の多様性を増大させることが自然である。
しかし、グラフ領域ではこれは自明ではない。
そこで本研究では,リアルグラフを摂動することで,希少かつ可塑性なシーングラフを合成する手法を提案する。
次に,条件付き生成逆数ネットワーク(GAN)に基づくモデルを提案し,実験的に研究し,乱れたシーングラフの視覚的特徴を生成し,それらを共同で学習する。
Visual Genomeデータセットで評価すると、我々のアプローチはゼロショットと少数ショットのメトリクスを極端に改善するが、一貫した改善をもたらす。
今後の研究に期待できる方向性を示すアプローチの限界を分析する。
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - Semi-Supervised Graph-to-Graph Translation [31.47555366566109]
グラフ翻訳は有望な研究の方向性であり、現実世界に広く応用できる可能性がある。
重要な理由のひとつは、高品質なペアデータセットがないことだ。
意味遷移をモデル化するために変換を明示的に行う双対表現空間を構築することを提案する。
論文 参考訳(メタデータ) (2021-03-16T03:24:20Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - Multilayer Clustered Graph Learning [66.94201299553336]
我々は、観測された層を代表グラフに適切に集約するために、データ忠実度用語として対照的な損失を用いる。
実験により,本手法がクラスタクラスタw.r.tに繋がることが示された。
クラスタリング問題を解くためのクラスタリングアルゴリズムを学習する。
論文 参考訳(メタデータ) (2020-10-29T09:58:02Z) - Graph Density-Aware Losses for Novel Compositions in Scene Graph
Generation [27.535630110794855]
シーングラフ生成は、入力画像のグラフ構造記述を予測することを目的としている。
新規な(ゼロショット)または稀な(2ショット)オブジェクトとリレーションシップの合成をうまく行うことは、重要だが、難しい。
このタスクで使用される標準損失は、意図せずにシーングラフ密度の関数であることを示す。
密度正規化エッジロスを導入し、特定の一般化指標を2倍以上に改善する。
論文 参考訳(メタデータ) (2020-05-17T11:45:29Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。