論文の概要: Self-supervised Photographic Image Layout Representation Learning
- arxiv url: http://arxiv.org/abs/2403.03740v2
- Date: Tue, 20 Aug 2024 17:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:19:21.624750
- Title: Self-supervised Photographic Image Layout Representation Learning
- Title(参考訳): 自己監督型画像レイアウト表現学習
- Authors: Zhaoran Zhao, Peng Lu, Xujun Peng, Wenhao Guo,
- Abstract要約: 我々は,不均一なレイアウトグラフを正確に,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。
より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを備えたLODBデータセットを紹介します。
このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 5.009120058742792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of image layout representation learning, the critical process of translating image layouts into succinct vector forms is increasingly significant across diverse applications, such as image retrieval, manipulation, and generation. Most approaches in this area heavily rely on costly labeled datasets and notably lack in adapting their modeling and learning methods to the specific nuances of photographic image layouts. This shortfall makes the learning process for photographic image layouts suboptimal. In our research, we directly address these challenges. We innovate by defining basic layout primitives that encapsulate various levels of layout information and by mapping these, along with their interconnections, onto a heterogeneous graph structure. This graph is meticulously engineered to capture the intricate layout information within the pixel domain explicitly. Advancing further, we introduce novel pretext tasks coupled with customized loss functions, strategically designed for effective self-supervised learning of these layout graphs. Building on this foundation, we develop an autoencoder-based network architecture skilled in compressing these heterogeneous layout graphs into precise, dimensionally-reduced layout representations. Additionally, we introduce the LODB dataset, which features a broader range of layout categories and richer semantics, serving as a comprehensive benchmark for evaluating the effectiveness of layout representation learning methods. Our extensive experimentation on this dataset demonstrates the superior performance of our approach in the realm of photographic image layout representation learning.
- Abstract(参考訳): 画像レイアウト表現学習の領域では、画像のレイアウトを簡潔なベクトル形式に変換する重要なプロセスが、画像検索、操作、生成などの様々なアプリケーションでますます重要になっている。
この領域のほとんどのアプローチは、高価なラベル付きデータセットに大きく依存しており、特に写真画像レイアウトの特定のニュアンスにモデリングと学習方法を適用することが欠如している。
この欠点は、写真画像レイアウトの学習過程を最適以下にする。
本研究では,これらの課題に対処する。
我々は、様々なレベルのレイアウト情報をカプセル化する基本的なレイアウトプリミティブを定義し、それらを相互接続とともに不均一なグラフ構造にマッピングすることで革新する。
このグラフは、ピクセル領域内の複雑なレイアウト情報を明示的にキャプチャするために慎重に設計されている。
さらに、これらのレイアウトグラフを効果的に自己教師付き学習するために戦略的に設計された、カスタマイズされた損失関数と組み合わされた新しいプリテキストタスクを導入する。
そこで我々は,これらの不均一なレイアウトグラフを精度よく,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。
さらに,より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを特徴とするLODBデータセットを導入し,レイアウト表現学習手法の有効性を評価するための総合的なベンチマークとして機能する。
このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
関連論文リスト
- SE-VGAE: Unsupervised Disentangled Representation Learning for Interpretable Architectural Layout Design Graph Generation [0.0]
本稿では,非教師付き非教師付き非教師付き表現学習フレームワーク,スタイルベースエッジ拡張変分グラフ自動エンコーダを提案する。
このフレームワークは、表現の絡み合いを優先順位付けしながら、属性付き隣接多重グラフの形式でアーキテクチャレイアウトを生成する。
実世界のフロアプラン画像から抽出した大規模レイアウトグラフデータセットのベンチマークに貢献する。
論文 参考訳(メタデータ) (2024-06-25T09:40:47Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。