Fugu-MT 論文翻訳(概要): Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation

論文の概要: Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2310.01819v2
Date: Fri, 20 Oct 2023 09:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 02:53:00.846558
Title: Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation
Title（参考訳）: テキストから画像を生成するためのスワップサンプリング
Authors: Jun Li, Zedong Zhang, Jian Yang
Abstract要約: 本研究では,新鮮さと驚きを示すオブジェクト画像を生成するために,許容スワップサンプリングと呼ばれる手法を開発した。提案手法は, 安定拡散, DALLE2, ERNIE-ViLG2, Bingなどの最近の手法より, 新規で驚くべき物体画像の生成に優れることを示す。
参考スコア（独自算出の注目度）: 17.895095340600935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploring a machine learning system to generate meaningful combinatorial object images from multiple textual descriptions, emulating human creativity, is a significant challenge as humans are able to construct amazing combinatorial objects, but machines strive to emulate data distribution. In this paper, we develop a straight-forward yet highly effective technique called acceptable swap-sampling to generate a combinatorial object image that exhibits novelty and surprise, utilizing text concepts of different objects. Initially, we propose a swapping mechanism that constructs a novel embedding by exchanging column vectors of two text embeddings for generating a new combinatorial image through a cutting-edge diffusion model. Furthermore, we design an acceptable region by managing suitable CLIP distances between the new image and the original concept generations, increasing the likelihood of accepting the new image with a high-quality combination. This region allows us to efficiently sample a small subset from a new image pool generated by using randomly exchanging column vectors. Lastly, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object image from the sampled subset. Our experiments focus on text pairs of objects from ImageNet, and our results demonstrate that our approach outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and Bing in generating novel and surprising object images, even when the associated concepts appear to be implausible, such as lionfish-abacus. Moreover, during the sampling process, our approach without training and human preference is also comparable to PickScore and HPSv2 trained using human preference datasets.
Abstract（参考訳）: 人間の創造性をエミュレートする、複数のテキスト記述から意味のある組合せオブジェクト画像を生成する機械学習システムを探索することは、人間が驚くべき組合せオブジェクトを構築することができるため、重要な課題である。本稿では,異なるオブジェクトのテキスト概念を利用して,新奇さと驚きを示す合成対象画像を生成する,許容スワップサンプリングという,真正面かつ高効率な手法を開発する。まず, 2 つのテキスト埋め込みのコラムベクトルを交換し, 最先端拡散モデルを用いて新たな組合せ画像を生成する, 新たな埋め込み機構を提案する。さらに、新しい画像とオリジナルコンセプト世代間の適切なCLIP距離を管理し、高品質な組み合わせで新しい画像を受け入れる可能性を高めることにより、許容可能な領域を設計する。この領域は、カラムベクトルをランダムに交換することで生成された新しいイメージプールから、小さなサブセットを効率的にサンプリングできる。最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択する。実験では,imagenetのテキストペアに着目し,stable-diffusion2,dalle2,ernie-vilg2,bingといった最近の手法よりも,lionfish-abacusのような関連概念が目立たないような場合であっても,新規で驚くべきオブジェクト画像を生成する方法が優れていることを示す。さらに, サンプリング過程において, トレーニングや人選好のないアプローチは, 人間の選好データセットを用いて訓練したPickScoreやHPSv2と同等である。

関連論文リスト

Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文参考訳（メタデータ） (2026-01-07T19:19:44Z)
ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion [18.25085327318649]
ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
論文参考訳（メタデータ） (2025-11-24T04:10:53Z)
Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文参考訳（メタデータ） (2025-10-21T02:19:12Z)
VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis [23.50866105623598]
本稿では,ノイズレベルと潜時レベルの両方で2つの入力画像を統合することで,単一のコヒーレントオブジェクトを合成する拡散ベースフレームワークを提案する。本手法は, 視覚的品質, 意味的整合性, 人格的創造性において, 高いベースラインを達成している。
論文参考訳（メタデータ） (2025-09-28T03:17:58Z)
ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文参考訳（メタデータ） (2025-05-30T00:13:36Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
SoftREPAは、表現アライメントにソフトテキストトークンを活用する軽量でコントラスト的な微調整戦略である。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文参考訳（メタデータ） (2023-12-18T00:05:28Z)
Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER [43.425998295991135]
本稿では,BGA-MNERという双方向生成アライメント手法を提案する。提案手法は,推論中に画像入力を伴わずに最先端の性能を実現する。
論文参考訳（メタデータ） (2023-08-03T10:37:20Z)
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。 MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文参考訳（メタデータ） (2022-04-15T16:29:55Z)
Robust Cross-Modal Representation Learning with Progressive Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-10T03:28:18Z)
A Well-Composed Text is Half Done! Composition Sampling for Diverse Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文参考訳（メタデータ） (2022-03-28T21:24:03Z)
One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T13:03:06Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。