論文の概要: Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data
Generation Framework using Foundational Models
- arxiv url: http://arxiv.org/abs/2312.15247v1
- Date: Sat, 23 Dec 2023 12:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:02:09.085810
- Title: Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data
Generation Framework using Foundational Models
- Title(参考訳): Prompt-Propose-Verify:基礎モデルを用いた信頼性の高いハンドオブジェクトインタラクションデータ生成フレームワーク
- Authors: Gurusha Juneja and Sukrit Kumar
- Abstract要約: テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。
しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して、正確な画像を生成することができない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models when conditioned on text prompts, generate realistic-looking
images with intricate details. But most of these pre-trained models fail to
generate accurate images when it comes to human features like hands, teeth,
etc. We hypothesize that this inability of diffusion models can be overcome
through well-annotated good-quality data. In this paper, we look specifically
into improving the hand-object-interaction image generation using diffusion
models. We collect a well annotated hand-object interaction synthetic dataset
curated using Prompt-Propose-Verify framework and finetune a stable diffusion
model on it. We evaluate the image-text dataset on qualitative and quantitative
metrics like CLIPScore, ImageReward, Fedility, and alignment and show
considerably better performance over the current state-of-the-art benchmarks.
- Abstract(参考訳): テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。
しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して正確な画像を生成することができない。
この拡散モデルの不可能性は、よく注釈付けされた良質なデータによって克服できると仮定する。
本稿では,拡散モデルを用いた手-対象-相互作用画像生成の改善を特に検討する。
本稿では,Prompt-Propose-Verifyフレームワークを用いて計算した手動物体間相互作用合成データセットを収集し,その上で安定な拡散モデルを微調整する。
clipscore、imagereward、feedility、そしてアライメントのような質的かつ定量的な指標に基づいて、画像テキストデータセットを評価し、現在の最先端ベンチマークよりもかなり優れたパフォーマンスを示します。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Generating images of rare concepts using pre-trained diffusion models [32.5337654536764]
テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
論文 参考訳(メタデータ) (2023-04-27T20:55:38Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。