Fugu-MT 論文翻訳(概要): TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

論文の概要: TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling

arxiv url: http://arxiv.org/abs/2310.01819v4
Date: Thu, 18 Jul 2024 08:57:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-20 00:02:04.585664
Title: TP2O: Creative Text Pair-to-Object Generation using Balance Swap-Sampling
Title（参考訳）: TP2O: バランススワップサンプリングを用いたテキストペアツーオブジェクト生成
Authors: Jun Li, Zedong Zhang, Jian Yang,
Abstract要約: 本稿では,2つのテキスト埋め込みの要素をランダムに交換することで,新しいオブジェクト画像を生成するスワッピング機構を提案する。また、新たに生成された画像集合から小さなサブセットを効率的にサンプリングするためのバランススワップ領域も導入する。私たちの研究結果は、カエルブロッコリーのような人間のアーティストとさえ競合しています。
参考スコア（独自算出の注目度）: 15.922322948515797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating creative combinatorial objects from two seemingly unrelated object texts is a challenging task in text-to-image synthesis, often hindered by a focus on emulating existing data distributions. In this paper, we develop a straightforward yet highly effective method, called \textbf{balance swap-sampling}. First, we propose a swapping mechanism that generates a novel combinatorial object image set by randomly exchanging intrinsic elements of two text embeddings through a cutting-edge diffusion model. Second, we introduce a balance swapping region to efficiently sample a small subset from the newly generated image set by balancing CLIP distances between the new images and their original generations, increasing the likelihood of accepting the high-quality combinations. Last, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object from the sampled subset. Extensive experiments demonstrate that our approach outperforms recent SOTA T2I methods. Surprisingly, our results even rival those of human artists, such as frog-broccoli.
Abstract（参考訳）: 2つの一見無関係なオブジェクトテキストから創造的な組合せオブジェクトを生成することは、テキストと画像の合成において難しい課題であり、しばしば既存のデータ分散をエミュレートすることに集中することを妨げる。本稿では, 単純かつ高効率な方法であるtextbf{ Balance swap-sampling} を提案する。まず,最先端拡散モデルを用いて2つのテキスト埋め込みの固有要素をランダムに交換することにより,新しい合成対象画像を生成するスワッピング機構を提案する。第2に、新しい画像と元の世代間のCLIP距離のバランスをとることによって、新たに生成した画像から小さなサブセットを効率的にサンプリングするバランススワップ領域を導入し、高品質な組み合わせを受け入れる可能性を高めた。最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクトを選択する。本手法は最近のSOTA T2I法より優れていることを示す。驚くべきことに、私たちの結果はカエルブロッコリーのような人間のアーティストとさえ競合しています。

関連論文リスト

ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文参考訳（メタデータ） (2025-05-30T00:13:36Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
SoftREPAは、表現アライメントにソフトテキストトークンを活用する軽量でコントラスト的な微調整戦略である。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文参考訳（メタデータ） (2023-12-18T00:05:28Z)
Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER [43.425998295991135]
本稿では,BGA-MNERという双方向生成アライメント手法を提案する。提案手法は,推論中に画像入力を伴わずに最先端の性能を実現する。
論文参考訳（メタデータ） (2023-08-03T10:37:20Z)
T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文参考訳（メタデータ） (2023-07-12T17:59:42Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Unconditional Image-Text Pair Generation with Multimodal Cross Quantizer [8.069590683507997]
マルチモーダル画像テキスト表現のためのベクトル量子化手法MXQ-VAEを提案する。 MXQ-VAEはペア画像とテキストを入力として受け入れ、共同量子化表現空間を学習する。自己回帰生成モデルを用いて、共同画像-テキスト表現をモデル化し、無条件画像-テキストペア生成を行う。
論文参考訳（メタデータ） (2022-04-15T16:29:55Z)
Robust Cross-Modal Representation Learning with Progressive Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-10T03:28:18Z)
A Well-Composed Text is Half Done! Composition Sampling for Diverse Conditional Generation [79.98319703471596]
高品質の条件付き生成のための多種多様な出力を生成するための簡易で効果的な合成サンプリング法であるコンポジションサンプリングを提案する。これは最近提案された計画ベースのニューラルジェネレーションモデルに基づいて構築され、まず最初に出力の合成を作成し、それと入力を条件付けして生成するように訓練される。
論文参考訳（メタデータ） (2022-03-28T21:24:03Z)
One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T13:03:06Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)
Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文参考訳（メタデータ） (2020-02-20T00:51:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。