論文の概要: Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2007.08760v1
- Date: Fri, 17 Jul 2020 05:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:58:38.451005
- Title: Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation
- Title(参考訳): Sketching Image Gist: 人間のミメティックな階層的なシーングラフ生成
- Authors: Wenbin Wang, Ruiping Wang, Shiguang Shan, Xilin Chen
- Abstract要約: 望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
- 参考スコア(独自算出の注目度): 98.34909905511061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph aims to faithfully reveal humans' perception of image content.
When humans analyze a scene, they usually prefer to describe image gist first,
namely major objects and key relations in a scene graph. This humans' inherent
perceptive habit implies that there exists a hierarchical structure about
humans' preference during the scene parsing procedure. Therefore, we argue that
a desirable scene graph should be also hierarchically constructed, and
introduce a new scheme for modeling scene graph. Concretely, a scene is
represented by a human-mimetic Hierarchical Entity Tree (HET) consisting of a
series of image regions. To generate a scene graph based on HET, we parse HET
with a Hybrid Long Short-Term Memory (Hybrid-LSTM) which specifically encodes
hierarchy and siblings context to capture the structured information embedded
in HET. To further prioritize key relations in the scene graph, we devise a
Relation Ranking Module (RRM) to dynamically adjust their rankings by learning
to capture humans' subjective perceptive habits from objective entity saliency
and size. Experiments indicate that our method not only achieves
state-of-the-art performances for scene graph generation, but also is expert in
mining image-specific relations which play a great role in serving downstream
tasks.
- Abstract(参考訳): scene graphは、画像コンテンツに対する人間の認識を忠実に明らかにすることを目的としている。
人間がシーンを分析するとき、彼らは通常、まず画像ジェスト、すなわち主要なオブジェクトとシーングラフの重要な関係を記述することを好む。
この人間固有の知覚的習慣は、シーン解析中に人間の嗜好に関する階層構造が存在することを意味する。
そこで我々は,望ましいシーングラフを階層的に構築し,シーングラフをモデル化するための新しい手法を提案する。
具体的には、シーンは一連の画像領域からなる人間模倣階層エンティティツリー(het)によって表現される。
HETに基づくシーングラフを生成するために,HETに埋め込まれた構造化情報を取得するために,階層構造と兄弟関係を具体的に符号化したHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフの重要関係を更に優先順位付けするために,関係ランキングモジュール(rrm)を考案し,人間の主観的知覚習慣を客観的なエンティティ・サリエンシーとサイズから捉えることにより,そのランキングを動的に調整する。
実験により,提案手法はシーングラフ生成の最先端性能を実現するだけでなく,下流タスクに重要な役割を果たす画像固有関係を抽出できることを示す。
関連論文リスト
- SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - A Comprehensive Survey of Scene Graphs: Generation and Application [42.07469181785126]
シーングラフ(Scene graph)は、シーン内のオブジェクト間のオブジェクト、属性、関係を明確に表現できるシーンの構造化された表現である。
現在、シーングラフの比較的体系的な調査は行われていない。
論文 参考訳(メタデータ) (2021-03-17T04:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。