Fugu-MT 論文翻訳(概要): DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

論文の概要: DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

arxiv url: http://arxiv.org/abs/2602.23438v1
Date: Thu, 26 Feb 2026 19:03:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.098273
Title: DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation
Title（参考訳）: DesignSense: グラフィカルレイアウト生成のための人間の嗜好データセットとリワードモデリングフレームワーク
Authors: Varun Gopal, Rishabh Jain, Aradhya Mathur, Nikitha SR, Sohan Patnaik, Sudhir Yarram, Mayur Hemani, Balaji Krishnamurthy, Mausoom Sarkar,
Abstract要約: 図形レイアウト評価のための大規模データセットであるDesignSense-10kを紹介した。我々は、セマンティックグルーピング、レイアウト予測、フィルタリング、クラスタリング、VLMに基づく精細化を用いて、高品質な比較ペアを生成する。分析の結果,フロンティアVLMは総合的に信頼性が低く,全4クラスタスクで壊滅的に失敗することがわかった。
参考スコア（独自算出の注目度）: 23.876231579797803
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Graphic layouts serve as an important and engaging medium for visual communication across different channels. While recent layout generation models have demonstrated impressive capabilities, they frequently fail to align with nuanced human aesthetic judgment. Existing preference datasets and reward models trained on text-to-image generation do not generalize to layout evaluation, where the spatial arrangement of identical elements determines quality. To address this critical gap, we introduce DesignSense-10k, a large-scale dataset of 10,235 human-annotated preference pairs for graphic layout evaluation. We propose a five-stage curation pipeline that generates visually coherent layout transformations across diverse aspect ratios, using semantic grouping, layout prediction, filtering, clustering, and VLM-based refinement to produce high-quality comparison pairs. Human preferences are annotated using a 4-class scheme (left, right, both good, both bad) to capture subjective ambiguity. Leveraging this dataset, we train DesignSense, a vision-language model-based classifier that substantially outperforms existing open-source and proprietary models across comprehensive evaluation metrics (54.6% improvement in Macro F1 over the strongest proprietary baseline). Our analysis shows that frontier VLMs remain unreliable overall and fail catastrophically on the full four-class task, underscoring the need for specialized, preference-aware models. Beyond the dataset, our reward model DesignSense yields tangible downstream gains in layout generation. Using our judge during RL based training improves generator win rate by about 3%, while inference-time scaling, which involves generating multiple candidates and selecting the best one, provides a 3.6% improvement. These results highlight the practical impact of specialized, layout-aware preference modeling on real-world layout generation quality.
Abstract（参考訳）: グラフィックレイアウトは、異なるチャネルをまたいだ視覚コミュニケーションのための重要かつ魅力的な媒体として機能する。最近のレイアウト生成モデルは印象的な能力を示しているが、人間の審美的判断とよく一致しない。テキスト・画像生成で訓練された既存の嗜好データセットと報酬モデルは、同一要素の空間配置が品質を決定する場合のレイアウト評価に一般化されない。この重要なギャップに対処するために、図形レイアウト評価のための10,235人の注釈付き嗜好ペアからなる大規模データセットであるDesignSense-10kを紹介する。本稿では, セマンティックグルーピング, レイアウト予測, フィルタリング, クラスタリング, VLMに基づく精細化を用いて, 様々なアスペクト比の視覚的コヒーレントなレイアウト変換を生成する5段階キュレーションパイプラインを提案する。人間の嗜好は、主観的曖昧さを捉えるための4種類のスキーム(左、右、善、両悪の両方)を使って注釈付けされる。このデータセットを活用して、私たちはDesignSenseというビジョン言語モデルベースの分類器をトレーニングします。これは既存のオープンソースおよびプロプライエタリなモデルを総合的な評価指標で大幅に上回ります(マクロF1を最強のプロプライエタリなベースラインよりも54.6%改善しました)。我々の分析では、フロンティアのVLMは全体として信頼できないままで、全4クラスタスクで破滅的に失敗し、特殊で嗜好を意識したモデルの必要性を浮き彫りにしている。データセット以外にも、私たちの報酬モデルであるDesignSenseは、レイアウト生成において明確なダウンストリームゲインをもたらします。 RLベースのトレーニングで審査員を使用すると、ジェネレータの勝利率が約3%向上する一方、複数の候補を生成し、最良の候補を選択する推論時間スケーリングは3.6%改善する。これらの結果は,レイアウトを意識した嗜好モデリングが現実のレイアウト生成品質に与える影響を浮き彫りにした。

関連論文リスト

Follow-Your-Preference: Towards Preference-Aligned Image Inpainting [17.648992293002088]
我々は、アライメントトレーニングに顕著な直接選好最適化アプローチを活用する。プライオリティトレーニングデータセットを構築するために、パブリック報酬モデルを使用します。私たちの仕事はシンプルだがしっかりとしたベースラインを設定することができ、この有望なフロンティアを推し進めることができます。
論文参考訳（メタデータ） (2025-09-27T03:32:30Z)
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文参考訳（メタデータ） (2025-09-26T10:45:48Z)
Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。審査員モデルの応答を正確に評価するために、外部ツールが導入される。合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文参考訳（メタデータ） (2025-04-27T15:21:59Z)
Sentiment Analysis in Software Engineering: Evaluating Generative Pre-trained Transformers [0.0]
本研究は,SE感情分析において, BERT などの双方向トランスフォーマー, 特に GPT-4o-mini に対する性能を系統的に評価する。その結果、微調整のGPT-4o-miniは、GitHubやJiraのような構造化およびバランスの取れたデータセット上でBERTや他の双方向モデルに匹敵するパフォーマンスを示した。 Stack Overflowのような不均衡な感情分布を持つ言語的に複雑なデータセットでは、デフォルトのGPT-4o-miniモデルはより優れた一般化を示し、微調整モデルの13.1%と比べて85.3%の精度を実現している。
論文参考訳（メタデータ） (2025-04-22T14:19:25Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。 DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文参考訳（メタデータ） (2024-09-11T21:23:23Z)
Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文参考訳（メタデータ） (2024-05-28T11:30:19Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。