論文の概要: Improving Physical Object State Representation in Text-to-Image Generative Systems
- arxiv url: http://arxiv.org/abs/2505.02236v1
- Date: Sun, 04 May 2025 20:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.499211
- Title: Improving Physical Object State Representation in Text-to-Image Generative Systems
- Title(参考訳): テキスト・画像生成システムにおける物理オブジェクト状態表現の改善
- Authors: Tianle Chen, Chaitanya Chakka, Deepti Ghadiyaram,
- Abstract要約: 我々は、様々な状態のオブジェクトを正確にキャプチャする高品質な合成データを生成する。
この合成データに基づいて、オープンソースのテキスト・画像モデルをいくつか微調整する。
生成した画像とプロンプトとのアライメントを定量化することにより、微調整モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 10.600387261733053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image generative models struggle to accurately represent object states (e.g., "a table without a bottle," "an empty tumbler"). In this work, we first design a fully-automatic pipeline to generate high-quality synthetic data that accurately captures objects in varied states. Next, we fine-tune several open-source text-to-image models on this synthetic data. We evaluate the performance of the fine-tuned models by quantifying the alignment of the generated images to their prompts using GPT4o-mini, and achieve an average absolute improvement of 8+% across four models on the public GenAI-Bench dataset. We also curate a collection of 200 prompts with a specific focus on common objects in various physical states. We demonstrate a significant improvement of an average of 24+% over the baseline on this dataset. We release all evaluation prompts and code.
- Abstract(参考訳): 現在のテキストから画像への生成モデルは、オブジェクトの状態(例えば、「ボトルのないテーブル」、「空のタンブラー」など)を正確に表現するのに苦労している。
本研究では,まず,様々な状態の物体を正確にキャプチャする高品質な合成データを生成する完全自動パイプラインを設計する。
次に、この合成データに基づいて、オープンソースのテキスト画像モデルをいくつか微調整する。
我々は、GPT4o-miniを用いて、生成した画像とプロンプトとのアライメントを定量化し、パブリックなGenAI-Benchデータセット上の4つのモデルに対して平均8+%の絶対的な改善を実現することにより、微調整モデルの性能を評価する。
また、さまざまな物理的状態の共通オブジェクトに特化して200のプロンプトのコレクションをキュレートする。
このデータセットのベースラインに対して平均24+%の大幅な改善を示す。
すべての評価プロンプトとコードをリリースします。
関連論文リスト
- Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation [0.0]
テキスト・ツー・イメージ(T2I)生成拡散モデルは,テキストキャプションから多種多様な高品質な視覚を合成する際,優れた性能を示した。
我々は,意味的および空間的接地情報に基づいて,T2I拡散モデルを記述するモデルであるObjectDiffusionを提案する。
論文 参考訳(メタデータ) (2025-01-15T22:55:26Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。