Fugu-MT 論文翻訳(概要): Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization

論文の概要: Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization

arxiv url: http://arxiv.org/abs/2410.12700v1
Date: Wed, 16 Oct 2024 16:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.405618
Title: Embedding an Ethical Mind: Aligning Text-to-Image Synthesis via Lightweight Value Optimization
Title（参考訳）: 倫理心の埋め込み:軽量値最適化によるテキスト・画像合成の調整
Authors: Xingqi Wang, Xiaoyuan Yi, Xing Xie, Jia Jia,
Abstract要約: LiVOは、T2Iモデルを人間の値に合わせるための新しい軽量な方法である。本研究では,86kサンプルのテキスト画像選好データセットを自動構築するフレームワークを開発した。
参考スコア（独自算出の注目度）: 33.83967488568628
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in diffusion models trained on large-scale data have enabled the generation of indistinguishable human-level images, yet they often produce harmful content misaligned with human values, e.g., social bias, and offensive content. Despite extensive research on Large Language Models (LLMs), the challenge of Text-to-Image (T2I) model alignment remains largely unexplored. Addressing this problem, we propose LiVO (Lightweight Value Optimization), a novel lightweight method for aligning T2I models with human values. LiVO only optimizes a plug-and-play value encoder to integrate a specified value principle with the input prompt, allowing the control of generated images over both semantics and values. Specifically, we design a diffusion model-tailored preference optimization loss, which theoretically approximates the Bradley-Terry model used in LLM alignment but provides a more flexible trade-off between image quality and value conformity. To optimize the value encoder, we also develop a framework to automatically construct a text-image preference dataset of 86k (prompt, aligned image, violating image, value principle) samples. Without updating most model parameters and through adaptive value selection from the input prompt, LiVO significantly reduces harmful outputs and achieves faster convergence, surpassing several strong baselines and taking an initial step towards ethically aligned T2I models.
Abstract（参考訳）: 近年、大規模なデータに基づいて訓練された拡散モデルにより、識別不能な人間レベルの画像の生成が可能になったが、しばしば人的価値、例えば社会的偏見、攻撃的コンテンツと不一致な有害なコンテンツを生成する。 LLM(Large Language Models)の広範な研究にもかかわらず、テキスト・ツー・イメージ(T2I)モデルのアライメントの課題はほとんど未解決のままである。そこで本研究では,T2Iモデルと人的価値を整合させる軽量な手法であるLiVO(Lightweight Value Optimization)を提案する。 LiVOは、特定の値原理と入力プロンプトを統合するために、プラグ・アンド・プレイの値エンコーダのみを最適化し、セマンティクスと値の両方で生成された画像の制御を可能にする。具体的には,LLMアライメントに使用するBradley-Terryモデルに理論的に近似する拡散モデル調整された選好最適化損失を設計するが,画像品質と値整合性の間には,より柔軟なトレードオフを与える。また,値エンコーダの最適化のために,86kのテキスト画像選好データセット(プロンプト,アライメント画像,違反画像,値原理)を自動的に構築するフレームワークを開発した。多くのモデルパラメータを更新することなく、入力プロンプトから適応値を選択することで、LiVOは有害な出力を著しく削減し、より高速な収束を実現し、いくつかの強力なベースラインを超え、倫理的に整列したT2Iモデルに向けた最初の一歩を踏み出す。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
SUDO: Enhancing Text-to-Image Diffusion Models with Self-Supervised Direct Preference Optimization [19.087540230261684]
従来のテキスト・画像拡散モデルでは、教師付き微調整を用いて事前訓練されたベースモデルを強化するのが一般的である。我々は,画素レベルの細かな詳細とグローバルな画質の両方を最適化する新しいパラダイムであるSelf-SUpervised Direct preference Optimization (SUDO)を紹介する。教師付き微調整の効果的な代替として、SUDOはどんなテキスト・画像拡散モデルにもシームレスに適用できる。
論文参考訳（メタデータ） (2025-04-20T08:18:27Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Generating Multi-Image Synthetic Data for Text-to-Image Customization [48.59231755159313]
テキスト・ツー・イメージ・モデルのカスタマイズにより、ユーザーはカスタムのコンセプトを挿入し、目に見えない設定でコンセプトを生成することができる。既存の方法は、コストのかかるテストタイム最適化か、マルチイメージの監督なしにシングルイメージのトレーニングデータセットのトレーニングエンコーダに依存している。両制約に対処する簡単なアプローチを提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:41Z)
Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.14748181398049]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
TIPO: Text to Image with Text Presampling for Prompt Optimization [16.001151202788304]
TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。 LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
論文参考訳（メタデータ） (2024-11-12T19:09:45Z)
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。 FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文参考訳（メタデータ） (2024-08-21T15:30:35Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-03-12T15:36:42Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文参考訳（メタデータ） (2021-12-20T18:42:55Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。