論文の概要: Revision Matters: Generative Design Guided by Revision Edits
- arxiv url: http://arxiv.org/abs/2406.18559v1
- Date: Mon, 27 May 2024 17:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:00:20.797556
- Title: Revision Matters: Generative Design Guided by Revision Edits
- Title(参考訳): Revision Matters: Revision Editsでガイドされたジェネレーティブデザイン
- Authors: Tao Li, Chin-Yi Cheng, Amber Xie, Gang Li, Yang Li,
- Abstract要約: 本研究では,人間設計者による修正編集がマルチモーダル生成モデルにどのような効果をもたらすかを検討する。
本研究は, 反復的なレイアウト改善において, 人間のリビジョンが重要な役割を担っていることを示す。
我々の研究は、事前訓練された大規模マルチモーダルモデルに基づく反復的設計修正の道を開く。
- 参考スコア(独自算出の注目度): 18.976709992275286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout design, such as user interface or graphical layout in general, is fundamentally an iterative revision process. Through revising a design repeatedly, the designer converges on an ideal layout. In this paper, we investigate how revision edits from human designer can benefit a multimodal generative model. To do so, we curate an expert dataset that traces how human designers iteratively edit and improve a layout generation with a prompted language goal. Based on such data, we explore various supervised fine-tuning task setups on top of a Gemini multimodal backbone, a large multimodal model. Our results show that human revision plays a critical role in iterative layout refinement. While being noisy, expert revision edits lead our model to a surprisingly strong design FID score ~10 which is close to human performance (~6). In contrast, self-revisions that fully rely on model's own judgement, lead to an echo chamber that prevents iterative improvement, and sometimes leads to generative degradation. Fortunately, we found that providing human guidance plays at early stage plays a critical role in final generation. In such human-in-the-loop scenario, our work paves the way for iterative design revision based on pre-trained large multimodal models.
- Abstract(参考訳): ユーザインターフェースやグラフィカルレイアウトといったレイアウト設計は、基本的に反復的なリビジョンプロセスである。
設計を何度も修正することで、デザイナは理想的なレイアウトに収束する。
本稿では,人間設計者によるリビジョン編集がマルチモーダル生成モデルにどのような効果をもたらすかを検討する。
そのために、人間のデザイナーがいかにレイアウト生成を反復的に編集し改善するかを言語目標で追跡する専門家データセットをキュレートする。
このようなデータに基づいて、大規模なマルチモーダルモデルであるGeminiのマルチモーダルバックボーン上で、様々な教師付き微調整タスクの設定を探索する。
本研究は, 反復的なレイアウト改善において, 人間のリビジョンが重要な役割を担っていることを示す。
騒々しいが、専門家による改訂によって、驚くほど強いデザインのFIDスコアが10まで上昇し、人間のパフォーマンスに近い(~6)。
対照的に、モデル自身の判断に完全に依存する自己修正は、反復的な改善を妨げるエコーチャンバーを導き、時には生成的劣化を引き起こす。
幸いなことに、最終世代において、早期に人間の指導を提供することが重要な役割を担っていることがわかった。
このようなヒューマン・イン・ザ・ループのシナリオでは、事前訓練された大規模マルチモーダルモデルに基づく反復的デザイン修正の道を開く。
関連論文リスト
- Enhancing Recommendation Explanations through User-Centric Refinement [7.640281193938638]
本稿では、既存の説明可能なレコメンデータモデルによって生成された最初の説明を洗練する新しいパラダイムを提案する。
具体的には,大規模言語モデルに基づくマルチエージェント協調改良フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T12:08:18Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Leveraging Human Revisions for Improving Text-to-Layout Models [16.617352120973806]
我々は,より強力なアライメントのための人間のリビジョンの形で,ニュアンスフィードバックを用いることを提案する。
我々の手法であるRevision-Aware Reward Modelsは、生成テキストからテキストへのモデルにより、よりモダンでデザイナに準拠したレイアウトを生成する。
論文 参考訳(メタデータ) (2024-05-16T01:33:09Z) - Representation Learning for Sequential Volumetric Design Tasks [11.702880690338677]
本稿では,設計知識を専門家や高性能な設計シーケンスの集合から符号化することを提案する。
学習した表現の密度を推定して選好モデルを開発する。
逐次設計生成のための自己回帰変換モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-05T21:21:06Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Aspect-Controllable Opinion Summarization [58.5308638148329]
アスペクトクエリに基づいてカスタマイズした要約を生成する手法を提案する。
レビューコーパスを用いて、アスペクトコントローラで強化された(リビュー、サマリ)ペアの合成トレーニングデータセットを作成する。
合成データセットを用いて事前学習したモデルを微調整し、アスペクトコントローラを変更することでアスペクト固有の要約を生成する。
論文 参考訳(メタデータ) (2021-09-07T16:09:17Z) - Test-Time Personalization with a Transformer for Human Pose Estimation [10.776892578762721]
我々は、個人固有の情報を活用するために、テスト期間中にポーズ推定装置を適応させる。
自己教師型パーソナライゼーションによるポーズ推定の大幅な改善を示す。
論文 参考訳(メタデータ) (2021-07-05T16:48:34Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。