論文の概要: Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation
- arxiv url: http://arxiv.org/abs/2510.27632v1
- Date: Fri, 31 Oct 2025 17:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.173913
- Title: Sketch-to-Layout: Sketch-Guided Multimodal Layout Generation
- Title(参考訳): Sketch-to-Layout:Sketch-Guided Multimodal Layout Generation
- Authors: Riccardo Brioschi, Aleksandr Alekseev, Emanuele Nevali, Berkay Döner, Omar El Malki, Blagoj Mitrevski, Leandro Kieliger, Mark Collier, Andrii Maksai, Jesse Berent, Claudiu Musat, Efi Kokiopoulou,
- Abstract要約: ユーザが提供するスケッチを制約として活用する革新的なアプローチを導入する。
スケッチ・トゥ・直感的な問題に対処するために,マルチモーダル・トランスフォーマー・ベース・ソリューションを提案する。
O(200k)を合成生成したスケッチを上述の公開データセット向けにリリースする。
- 参考スコア(独自算出の注目度): 33.89285533035933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphic layout generation is a growing research area focusing on generating aesthetically pleasing layouts ranging from poster designs to documents. While recent research has explored ways to incorporate user constraints to guide the layout generation, these constraints often require complex specifications which reduce usability. We introduce an innovative approach exploiting user-provided sketches as intuitive constraints and we demonstrate empirically the effectiveness of this new guidance method, establishing the sketch-to-layout problem as a promising research direction, which is currently under-explored. To tackle the sketch-to-layout problem, we propose a multimodal transformer-based solution using the sketch and the content assets as inputs to produce high quality layouts. Since collecting sketch training data from human annotators to train our model is very costly, we introduce a novel and efficient method to synthetically generate training sketches at scale. We train and evaluate our model on three publicly available datasets: PubLayNet, DocLayNet and SlidesVQA, demonstrating that it outperforms state-of-the-art constraint-based methods, while offering a more intuitive design experience. In order to facilitate future sketch-to-layout research, we release O(200k) synthetically-generated sketches for the public datasets above. The datasets are available at https://github.com/google-deepmind/sketch_to_layout.
- Abstract(参考訳): グラフィックレイアウト生成は、ポスターデザインから文書に至るまで、美的なレイアウトを生成することに焦点を当てた研究領域である。
最近の研究では、レイアウト生成を導くためにユーザ制約を組み込む方法が検討されているが、これらの制約はユーザビリティを低下させる複雑な仕様を必要とすることが多い。
我々は,ユーザが提供するスケッチを直感的な制約として活用する革新的なアプローチを導入し,本手法の有効性を実証的に実証し,現在検討中である有望な研究方向としてスケッチ・トゥ・レイアウト問題を確立する。
スケッチ・トゥ・レイアウト問題に対処するために,スケッチとコンテンツ資産を入力として用いたマルチモーダル・トランスフォーマー・ベース・ソリューションを提案し,高品質なレイアウトを生成する。
人間のアノテータからスケッチの訓練データを収集してモデルを訓練するのには非常にコストがかかるので,本研究では,大規模なスケッチを合成的に生成する新しい,効率的な手法を提案する。
私たちは、PubLayNet、DocLayNet、SlidesVQAの3つの公開データセットでモデルをトレーニングし、評価します。
今後のスケッチ・トゥ・レイアウトの研究を容易にするため,上記の公開データセットに対するO(200k)合成スケッチをリリースする。
データセットはhttps://github.com/google-deepmind/sketch_to_layout.comで公開されている。
関連論文リスト
- SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - SingleSketch2Mesh : Generating 3D Mesh model from Sketch [1.6973426830397942]
スケッチから3Dモデルを生成する現在の方法は、手動またはタイトに3Dモデリングプラットフォームと結合されている。
我々は手描きスケッチから3Dモデルを生成するための新しいAIベースのアンサンブルアプローチであるSingleSketch2Meshを提案する。
論文 参考訳(メタデータ) (2022-03-07T06:30:36Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches [4.781615891172263]
初心者向けの高速な3Dモデリングを目指し、自由自在なスケッチから3Dメッシュを生成する問題を調査します。
曖昧さを克服するための視点仕様の重要性に対処し,新しい視点認識生成手法を提案する。
論文 参考訳(メタデータ) (2021-05-14T06:27:48Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。