論文の概要: Shape2Animal: Creative Animal Generation from Natural Silhouettes
- arxiv url: http://arxiv.org/abs/2506.20616v1
- Date: Wed, 25 Jun 2025 17:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.867827
- Title: Shape2Animal: Creative Animal Generation from Natural Silhouettes
- Title(参考訳): Shape2Animal:天然のシルエットから創造的な動物生成
- Authors: Quoc-Duy Tran, Anh-Tuan Vo, Dinh-Khoi Vo, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 本稿では, 雲, 石, 炎などの自然物シルエットを可塑性動物形として再解釈するためのShape2Animalフレームワークを提案する。
我々の自動フレームワークはまずオープン語彙セグメンテーションを行い、オブジェクトシルエットを抽出し、意味的に適切な動物概念を解釈する。
次に、入力形状に適合した動物画像を合成し、テキストと画像の拡散モデルを利用して、それを元のシーンにシームレスにブレンドする。
- 参考スコア(独自算出の注目度): 14.338537127280402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans possess a unique ability to perceive meaningful patterns in ambiguous stimuli, a cognitive phenomenon known as pareidolia. This paper introduces Shape2Animal framework to mimics this imaginative capacity by reinterpreting natural object silhouettes, such as clouds, stones, or flames, as plausible animal forms. Our automated framework first performs open-vocabulary segmentation to extract object silhouette and interprets semantically appropriate animal concepts using vision-language models. It then synthesizes an animal image that conforms to the input shape, leveraging text-to-image diffusion model and seamlessly blends it into the original scene to generate visually coherent and spatially consistent compositions. We evaluated Shape2Animal on a diverse set of real-world inputs, demonstrating its robustness and creative potential. Our Shape2Animal can offer new opportunities for visual storytelling, educational content, digital art, and interactive media design. Our project page is here: https://shape2image.github.io
- Abstract(参考訳): 人間は、パリドリアとして知られる認知現象である曖昧な刺激において意味のあるパターンを知覚するユニークな能力を持っている。
本稿では,雲や石,炎などの自然物シルエットを可塑性動物形として再解釈することで,この想像力を模倣するShape2Animalフレームワークを提案する。
我々の自動フレームワークは、まずオープン語彙セグメンテーションを行い、オブジェクトシルエットを抽出し、視覚言語モデルを用いて意味的に適切な動物概念を解釈する。
次に、入力形状に適合した動物画像を合成し、テキストと画像の拡散モデルを利用して、元のシーンにシームレスにブレンドし、視覚的に一貫性のある空間的に一貫した合成を生成する。
実世界の多様な入力に対してShape2Animalを評価し,その堅牢性と創造性を実証した。
われわれのShape2Animalは、ビジュアルストーリーテリング、教育コンテンツ、デジタルアート、インタラクティブメディアデザインの新しい機会を提供する。
私たちのプロジェクトページはこちらです。
関連論文リスト
- Reconstructing Animals and the Wild [51.98009864071166]
本研究では,単一画像から自然シーンを再構成する手法を提案する。
当社のアプローチは、大規模言語モデルにおける強力な世界の先駆的活用の進歩に基づくものです。
本稿では,100万枚の画像と数千枚の資産からなる合成データセットを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:24:27Z) - Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation [9.573188010530217]
ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
論文 参考訳(メタデータ) (2024-01-31T08:35:40Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Two-stage Synthetic Supervising and Multi-view Consistency
Self-supervising based Animal 3D Reconstruction by Single Image [30.997936022365018]
本研究では,2段階指導と自己監督訓練を組み合わせることで,動物による3Dスキャンの課題に対処する。
本研究は,鳥の3次元ディジタル化の定量的・定性的側面において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-22T07:06:38Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。