論文の概要: HIVE: Harnessing Human Feedback for Instructional Visual Editing
- arxiv url: http://arxiv.org/abs/2303.09618v1
- Date: Thu, 16 Mar 2023 19:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:37:38.987508
- Title: HIVE: Harnessing Human Feedback for Instructional Visual Editing
- Title(参考訳): HIVE:教育用ビジュアル編集のためのヒューマンフィードバック
- Authors: Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu,
Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong and Ran
Xu
- Abstract要約: 本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
- 参考スコア(独自算出の注目度): 137.91257049136362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating human feedback has been shown to be crucial to align text
generated by large language models to human preferences. We hypothesize that
state-of-the-art instructional image editing models, where outputs are
generated based on an input image and an editing instruction, could similarly
benefit from human feedback, as their outputs may not adhere to the correct
instructions and preferences of users. In this paper, we present a novel
framework to harness human feedback for instructional visual editing (HIVE).
Specifically, we collect human feedback on the edited images and learn a reward
function to capture the underlying user preferences. We then introduce scalable
diffusion model fine-tuning methods that can incorporate human preferences
based on the estimated reward. Besides, to mitigate the bias brought by the
limitation of data, we contribute a new 1M training dataset, a 3.6K reward
dataset for rewards learning, and a 1K evaluation dataset to boost the
performance of instructional image editing. We conduct extensive empirical
experiments quantitatively and qualitatively, showing that HIVE is favored over
previous state-of-the-art instructional image editing approaches by a large
margin.
- Abstract(参考訳): 人間のフィードバックを組み込むことは、大きな言語モデルによって生成されたテキストを人間の好みに合わせることが重要であることが示されている。
我々は、入力画像と編集命令に基づいて出力が生成される最先端の命令画像編集モデルが、その出力がユーザの正しい指示や好みに従わない場合にも、同様に人間のフィードバックの恩恵を受けると仮定する。
本稿では,人間のフィードバックを教育的視覚編集(hive)に活用する新しい枠組みを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、基礎となるユーザの好みをキャプチャする報酬関数を学習する。
次に,推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデルの微調整手法を提案する。
また,データ制限によるバイアスを軽減するために,新たな1mトレーニングデータセット,報酬学習のための3.6k報酬データセット,教示画像編集の性能向上を目的とした1k評価データセットを提案する。
そこで我々は,従来の最先端画像編集手法よりもhiveが好まれることを示すため,定量的・定性的に広範な実験を行った。
関連論文リスト
- Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文 参考訳(メタデータ) (2024-10-07T15:12:01Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Leveraging Human Revisions for Improving Text-to-Layout Models [16.617352120973806]
我々は,より強力なアライメントのための人間のリビジョンの形で,ニュアンスフィードバックを用いることを提案する。
我々の手法であるRevision-Aware Reward Modelsは、生成テキストからテキストへのモデルにより、よりモダンでデザイナに準拠したレイアウトを生成する。
論文 参考訳(メタデータ) (2024-05-16T01:33:09Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Putting Humans in the Image Captioning Loop [8.584932159968002]
我々は,人的フィードバックを統合するためのICシステムへの取り組みについて述べる。
提案手法は,MS COCOデータセットに基づいて事前学習したベースICモデルに基づいて,未確認画像のキャプションを生成する。
このアプローチが結果の改善につながる一方で、カスタマイズ可能なICモデルも実現することを期待しています。
論文 参考訳(メタデータ) (2023-06-06T07:50:46Z) - ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation [30.977582244445742]
ImageRewardは、人間の嗜好報酬モデルである。
そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
論文 参考訳(メタデータ) (2023-04-12T16:58:13Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。