論文の概要: InstructEngine: Instruction-driven Text-to-Image Alignment
- arxiv url: http://arxiv.org/abs/2504.10329v1
- Date: Mon, 14 Apr 2025 15:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:22.981228
- Title: InstructEngine: Instruction-driven Text-to-Image Alignment
- Title(参考訳): InstructEngine: インストラクション駆動のテキスト-画像アライメント
- Authors: Xingyu Lu, Yuhang Hu, YiFan Zhang, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Jinpeng Wang, Bin Wen, Chun Yuan, Fan Yang, Tingting Gao, Di Zhang,
- Abstract要約: InstructEngineはSD v1.5とSDXLのパフォーマンスを10.53%と5.30%改善し、最先端のベースラインを上回った。
人間のレビューの50%以上の勝利率は、InstructEngineが人間の好みとよく一致していることを証明している。
- 参考スコア(独自算出の注目度): 39.591411427738095
- License:
- Abstract: Reinforcement Learning from Human/AI Feedback (RLHF/RLAIF) has been extensively utilized for preference alignment of text-to-image models. Existing methods face certain limitations in terms of both data and algorithm. For training data, most approaches rely on manual annotated preference data, either by directly fine-tuning the generators or by training reward models to provide training signals. However, the high annotation cost makes them difficult to scale up, the reward model consumes extra computation and cannot guarantee accuracy. From an algorithmic perspective, most methods neglect the value of text and only take the image feedback as a comparative signal, which is inefficient and sparse. To alleviate these drawbacks, we propose the InstructEngine framework. Regarding annotation cost, we first construct a taxonomy for text-to-image generation, then develop an automated data construction pipeline based on it. Leveraging advanced large multimodal models and human-defined rules, we generate 25K text-image preference pairs. Finally, we introduce cross-validation alignment method, which refines data efficiency by organizing semantically analogous samples into mutually comparable pairs. Evaluations on DrawBench demonstrate that InstructEngine improves SD v1.5 and SDXL's performance by 10.53% and 5.30%, outperforming state-of-the-art baselines, with ablation study confirming the benefits of InstructEngine's all components. A win rate of over 50% in human reviews also proves that InstructEngine better aligns with human preferences.
- Abstract(参考訳): Reinforcement Learning from Human/AI Feedback (RLHF/RLAIF) はテキスト・ツー・イメージ・モデルの優先順位付けに広く利用されている。
既存の手法はデータとアルゴリズムの両面で一定の制限に直面している。
トレーニングデータでは、ほとんどのアプローチは手動で注釈付けされた好みデータに依存しており、ジェネレータを直接微調整するか、トレーニング信号を提供するために報酬モデルをトレーニングする。
しかし、アノテーションのコストが高いためスケールアップが難しく、報酬モデルは余分な計算を消費し、精度を保証できない。
アルゴリズムの観点からは、ほとんどの手法はテキストの価値を無視し、画像フィードバックを非効率でスパースな比較信号とみなす。
これらの欠点を軽減するため、我々はInstructEngineフレームワークを提案する。
アノテーションのコストに関して、まずテキスト・画像生成のための分類を構築し、それからそれに基づく自動データ構築パイプラインを開発する。
高度な大規模マルチモーダルモデルと人間定義ルールを活用することで、25Kテキストイメージの好みペアを生成する。
最後に,相互に比較可能なペアに意味論的に類似したサンプルを整理することにより,データ効率を向上するクロスバリデーションアライメント手法を提案する。
DrawBenchの評価によると、InstructEngineはSD v1.5とSDXLのパフォーマンスを10.53%と5.30%改善し、最先端のベースラインを上回った。
人間のレビューの50%以上の勝利率は、InstructEngineが人間の好みとよく一致していることを証明している。
関連論文リスト
- Pseudolabel guided pixels contrast for domain adaptive semantic segmentation [0.9831489366502301]
セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付き仮想データを使用してモデルをトレーニングし、ラベルなしで実際のデータに適応するテクニックである。
近年のいくつかの研究は、このテクニックを支援するために、自己教師付き学習の強力な方法であるコントラスト学習を使用している。
Pseudo-label Guided Pixel Contrast (PGPC) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-15T03:25:25Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation [30.977582244445742]
ImageRewardは、人間の嗜好報酬モデルである。
そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
論文 参考訳(メタデータ) (2023-04-12T16:58:13Z) - Disentangled Pre-training for Image Matting [74.10407744483526]
画像マッチングは、深層モデルのトレーニングをサポートするために高品質なピクセルレベルの人間のアノテーションを必要とする。
本研究では、無限個のデータを活用する自己教師付き事前学習手法を提案し、マッチング性能を向上する。
論文 参考訳(メタデータ) (2023-04-03T08:16:02Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。