論文の概要: LogicRank: Logic Induced Reranking for Generative Text-to-Image Systems
- arxiv url: http://arxiv.org/abs/2208.13518v1
- Date: Mon, 29 Aug 2022 11:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 12:49:14.171817
- Title: LogicRank: Logic Induced Reranking for Generative Text-to-Image Systems
- Title(参考訳): LogicRank: ジェネレーティブテキスト・画像システムのための論理誘導リグレード
- Authors: Bj\"orn Deiseroth, Patrick Schramowski, Hikaru Shindo, Devendra Singh
Dhami, Kristian Kersting
- Abstract要約: ドローベンチベンチマークに関連する文から正確なサンプルを生成できる最先端のテキスト・画像モデルの問題を示す。
本稿では,これらの精度要求設定に対してより正確なランキングシステムを実現するための,ニューロシンボリック推論フレームワークであるLogicRankを提案する。
- 参考スコア(独自算出の注目度): 20.976473203102223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image models have recently achieved remarkable success with seemingly
accurate samples in photo-realistic quality. However as state-of-the-art
language models still struggle evaluating precise statements consistently, so
do language model based image generation processes. In this work we showcase
problems of state-of-the-art text-to-image models like DALL-E with generating
accurate samples from statements related to the draw bench benchmark.
Furthermore we show that CLIP is not able to rerank those generated samples
consistently. To this end we propose LogicRank, a neuro-symbolic reasoning
framework that can result in a more accurate ranking-system for such
precision-demanding settings. LogicRank integrates smoothly into the generation
process of text-to-image models and moreover can be used to further fine-tune
towards a more logical precise model.
- Abstract(参考訳): テキスト・ツー・イメージモデルは最近、写実的品質の正確なサンプルで顕著な成功を収めた。
しかし、最先端の言語モデルはまだ正確なステートメントを一貫して評価するのに苦労しているため、言語モデルベースの画像生成プロセスもそうです。
本研究では,dall-e のような最先端テキスト対画像モデルの問題点を提示し,ドローベンチベンチマークに関連する文から正確なサンプルを生成する。
さらに、CLIPはこれらの生成されたサンプルを一貫してリランクできないことを示す。
この目的のために我々は,そのような精度要求設定のためのより正確なランキングシステムを実現する,ニューロシンボリック推論フレームワークであるLogicRankを提案する。
logicrankはテキストから画像へのモデルの生成プロセスにスムーズに統合され、さらにより論理的な正確なモデルにさらに微調整することができる。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [58.50071292008407]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Diffusion On Syntax Trees For Program Synthesis [8.878069731298014]
大規模言語モデルは一度に1つのトークンを生成する。
彼らの自己回帰生成プロセスは、プログラムの出力を観察するフィードバックを欠いている。
文脈自由文法の構文木で動作する神経拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-05-30T22:31:16Z) - Regeneration Based Training-free Attribution of Fake Images Generated by
Text-to-Image Generative Models [39.33821502730661]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。
テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文 参考訳(メタデータ) (2024-03-03T11:55:49Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。