論文の概要: Leveraging Human Revisions for Improving Text-to-Layout Models
- arxiv url: http://arxiv.org/abs/2405.13026v1
- Date: Thu, 16 May 2024 01:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:48:13.097104
- Title: Leveraging Human Revisions for Improving Text-to-Layout Models
- Title(参考訳): テキスト・ツー・レイアウトモデル改善のためのヒューマン・リビジョンの活用
- Authors: Amber Xie, Chin-Yi Cheng, Forrest Huang, Yang Li,
- Abstract要約: 我々は,より強力なアライメントのための人間のリビジョンの形で,ニュアンスフィードバックを用いることを提案する。
我々の手法であるRevision-Aware Reward Modelsは、生成テキストからテキストへのモデルにより、よりモダンでデザイナに準拠したレイアウトを生成する。
- 参考スコア(独自算出の注目度): 16.617352120973806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human feedback has shown success in aligning large, pretrained models with human values. Prior works have mostly focused on learning from high-level labels, such as preferences between pairs of model outputs. On the other hand, many domains could benefit from more involved, detailed feedback, such as revisions, explanations, and reasoning of human users. Our work proposes using nuanced feedback through the form of human revisions for stronger alignment. In this paper, we ask expert designers to fix layouts generated from a generative layout model that is pretrained on a large-scale dataset of mobile screens. Then, we train a reward model based on how human designers revise these generated layouts. With the learned reward model, we optimize our model with reinforcement learning from human feedback (RLHF). Our method, Revision-Aware Reward Models ($\method$), allows a generative text-to-layout model to produce more modern, designer-aligned layouts, showing the potential for utilizing human revisions and stronger forms of feedback in improving generative models.
- Abstract(参考訳): 人間のフィードバックから学ぶことは、大きな、事前訓練されたモデルと人間の価値を合わせることに成功している。
それまでの研究は主に、モデル出力のペア間の好みなど、ハイレベルなラベルからの学習に重点を置いてきた。
一方で、多くのドメインは、リビジョンや説明、ユーザーの推論など、より複雑な詳細なフィードバックの恩恵を受けることができる。
我々の研究は、より強力なアライメントのための人間のリビジョンの形で、ニュアンスフィードバックを使用することを提案する。
本稿では,モバイル画面の大規模データセット上で事前学習した生成的レイアウトモデルから生成されたレイアウトの修正を専門家に依頼する。
そして、人間の設計者が生成したレイアウトをどのように修正するかに基づいて報酬モデルを訓練する。
学習した報酬モデルを用いて、人間からのフィードバック(RLHF)からの強化学習でモデルを最適化する。
提案手法であるRevision-Aware Reward Models (\method$) により、生成テキストからレイアウトまでのモデルにより、よりモダンでデザイナに準拠したレイアウトを作成できる。
関連論文リスト
- Revision Matters: Generative Design Guided by Revision Edits [18.976709992275286]
本研究では,人間設計者による修正編集がマルチモーダル生成モデルにどのような効果をもたらすかを検討する。
本研究は, 反復的なレイアウト改善において, 人間のリビジョンが重要な役割を担っていることを示す。
我々の研究は、事前訓練された大規模マルチモーダルモデルに基づく反復的設計修正の道を開く。
論文 参考訳(メタデータ) (2024-05-27T17:54:51Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。
本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。