論文の概要: Learning to Compose Visual Relations
- arxiv url: http://arxiv.org/abs/2111.09297v1
- Date: Wed, 17 Nov 2021 18:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:12:15.101835
- Title: Learning to Compose Visual Relations
- Title(参考訳): 視覚関係を構成するための学習
- Authors: Nan Liu, Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba
- Abstract要約: 我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
- 参考スコア(独自算出の注目度): 100.45138490076866
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The visual world around us can be described as a structured set of objects
and their associated relations. An image of a room may be conjured given only
the description of the underlying objects and their associated relations. While
there has been significant work on designing deep neural networks which may
compose individual objects together, less work has been done on composing the
individual relations between objects. A principal difficulty is that while the
placement of objects is mutually independent, their relations are entangled and
dependent on each other. To circumvent this issue, existing works primarily
compose relations by utilizing a holistic encoder, in the form of text or
graphs. In this work, we instead propose to represent each relation as an
unnormalized density (an energy-based model), enabling us to compose separate
relations in a factorized manner. We show that such a factorized decomposition
allows the model to both generate and edit scenes that have multiple sets of
relations more faithfully. We further show that decomposition enables our model
to effectively understand the underlying relational scene structure. Project
page at: https://composevisualrelations.github.io/.
- Abstract(参考訳): 私たちの周りの視覚世界は、構造化されたオブジェクトの集合とその関連関係として記述できる。
部屋のイメージは、基礎となるオブジェクトとその関連関係の記述のみを考慮すれば、偽装することができる。
個々のオブジェクトをまとめて構成するディープニューラルネットワークの設計には大きな成果があるが、個々のオブジェクト間の関係を構成するための作業は少ない。
主な困難は、オブジェクトの配置が互いに独立であるが、それらの関係が絡み合って互いに依存していることである。
この問題を回避するため、既存の研究は主にテキストやグラフの形で、全体エンコーダを用いて関係を構成する。
本研究では,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
さらに,モデルの分解により,基礎となる関係シーン構造を効果的に理解できることを示した。
プロジェクトページ: https://composevisualrelations.github.io/
関連論文リスト
- RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。
トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。
まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。
第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文 参考訳(メタデータ) (2024-10-30T17:57:21Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - ViRel: Unsupervised Visual Relations Discovery with Graph-level Analogy [65.5580334698777]
ViRelは、グラフレベルのアナロジーを用いた視覚関係の教師なし発見と学習のための方法である。
本研究では,関係分類において95%以上の精度を達成できることを示す。
さらに、より複雑な関係構造を持つ未確認タスクに一般化する。
論文 参考訳(メタデータ) (2022-07-04T16:56:45Z) - Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文 参考訳(メタデータ) (2021-10-10T07:14:52Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Structured Query-Based Image Retrieval Using Scene Graphs [10.475553340127394]
本稿では,シーングラフの埋め込みを画像検索のアプローチの基盤として利用する手法を提案する。
長い尾を持つCOCO-Stuffデータセットに見られる低・中頻度のオブジェクトでも高いリコールを実現することができる。
論文 参考訳(メタデータ) (2020-05-13T22:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。