論文の概要: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2508.02374v1
- Date: Mon, 04 Aug 2025 13:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.72801
- Title: Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation
- Title(参考訳): Uni-Layout: 統一レイアウト生成と評価におけるヒューマンフィードバックの統合
- Authors: Shuo Lu, Yanyin Chen, Wei Feng, Jiahao Fan, Fengheng Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Jian Liang,
- Abstract要約: textitUni-Genは、統一された生成、人間-ミスキングの評価、両者のアライメントを実現する新しいフレームワークである。
textitUni-Genはタスク固有のメソッドと汎用メソッドの両方で大幅にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 35.93786897388298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout generation plays a crucial role in enhancing both user experience and design efficiency. However, current approaches suffer from task-specific generation capabilities and perceptually misaligned evaluation metrics, leading to limited applicability and ineffective measurement. In this paper, we propose \textit{Uni-Layout}, a novel framework that achieves unified generation, human-mimicking evaluation and alignment between the two. For universal generation, we incorporate various layout tasks into a single taxonomy and develop a unified generator that handles background or element contents constrained tasks via natural language prompts. To introduce human feedback for the effective evaluation of layouts, we build \textit{Layout-HF100k}, the first large-scale human feedback dataset with 100,000 expertly annotated layouts. Based on \textit{Layout-HF100k}, we introduce a human-mimicking evaluator that integrates visual and geometric information, employing a Chain-of-Thought mechanism to conduct qualitative assessments alongside a confidence estimation module to yield quantitative measurements. For better alignment between the generator and the evaluator, we integrate them into a cohesive system by adopting Dynamic-Margin Preference Optimization (DMPO), which dynamically adjusts margins based on preference strength to better align with human judgments. Extensive experiments show that \textit{Uni-Layout} significantly outperforms both task-specific and general-purpose methods. Our code is publicly available at https://github.com/JD-GenX/Uni-Layout.
- Abstract(参考訳): レイアウト生成は、ユーザエクスペリエンスと設計効率の両面で重要な役割を担います。
しかし、現在のアプローチはタスク固有の生成能力と知覚的に不一致な評価指標に悩まされており、適用可能性の制限と非効率な測定に繋がる。
本稿では,両者の統一的な生成,人体模倣評価,アライメントを実現する新しいフレームワークである「textit{Uni-Layout}」を提案する。
多様なレイアウトタスクを単一分類に組み込んで,背景や要素を制約したタスクを自然言語のプロンプトで処理する統一型ジェネレータを開発する。
レイアウトを効果的に評価するための人的フィードバックを導入するために,10,000の専門的なアノテートレイアウトを備えた,最初の大規模人的フィードバックデータセットである‘textit{Layout-HF100k} を構築した。
そこで,<textit{Layout-HF100k} に基づいて,視覚情報と幾何学情報を統合した人間模倣評価器を導入する。
ジェネレータと評価器の整合性を向上するために,人間の判断との整合性を高めるために,好みの強度に基づいて利得を動的に調整する動的マージン選好最適化(DMPO)を採用することで,結合システムに統合する。
大規模な実験により、 \textit{Uni-Layout} はタスク固有法と汎用法の両方で著しく優れていた。
私たちのコードはhttps://github.com/JD-GenX/Uni-Layout.comで公開されています。
関連論文リスト
- ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models [7.288330685534444]
我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。
具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。
また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
論文 参考訳(メタデータ) (2025-07-08T01:13:43Z) - AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [95.45316956434608]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - Iterative Feature Space Optimization through Incremental Adaptive Evaluation [30.404285897464256]
反復的特徴空間最適化は、下流タスクのパフォーマンスを改善するために、機能空間を体系的に評価し、調整する。
現存する作品には3つの限界がある。
データサンプルの違いを見渡すと 評価バイアスが発生します
特定の機械学習モデルに特徴空間を合わせると、過度に適合し、一般化が不十分になる。
本稿では, 最適かつ一般化された特徴空間を効率よく生成する, gEneralized Adaptive Feature Space Evaluatorを提案する。
論文 参考訳(メタデータ) (2025-01-24T19:24:20Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。
評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文 参考訳(メタデータ) (2024-05-20T16:47:22Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。