論文の概要: Shape2Animal: Creative Animal Generation from Natural Silhouettes
- arxiv url: http://arxiv.org/abs/2506.20616v2
- Date: Fri, 27 Jun 2025 01:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.340922
- Title: Shape2Animal: Creative Animal Generation from Natural Silhouettes
- Title(参考訳): Shape2Animal:天然のシルエットから創造的な動物生成
- Authors: Quoc-Duy Tran, Anh-Tuan Vo, Dinh-Khoi Vo, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 本稿では, 雲, 石, 炎などの自然物シルエットを可塑性動物形として再解釈するためのShape2Animalフレームワークを提案する。
我々の自動フレームワークはまずオープン語彙セグメンテーションを行い、オブジェクトシルエットを抽出し、意味的に適切な動物概念を解釈する。
次に、入力形状に適合した動物画像を合成し、テキストと画像の拡散モデルを利用して、それを元のシーンにシームレスにブレンドする。
- 参考スコア(独自算出の注目度): 14.338537127280402
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans possess a unique ability to perceive meaningful patterns in ambiguous stimuli, a cognitive phenomenon known as pareidolia. This paper introduces Shape2Animal framework to mimics this imaginative capacity by reinterpreting natural object silhouettes, such as clouds, stones, or flames, as plausible animal forms. Our automated framework first performs open-vocabulary segmentation to extract object silhouette and interprets semantically appropriate animal concepts using vision-language models. It then synthesizes an animal image that conforms to the input shape, leveraging text-to-image diffusion model and seamlessly blends it into the original scene to generate visually coherent and spatially consistent compositions. We evaluated Shape2Animal on a diverse set of real-world inputs, demonstrating its robustness and creative potential. Our Shape2Animal can offer new opportunities for visual storytelling, educational content, digital art, and interactive media design. Our project page is here: https://shape2image.github.io
- Abstract(参考訳): 人間は、パリドリアとして知られる認知現象である曖昧な刺激において意味のあるパターンを知覚するユニークな能力を持っている。
本稿では,雲や石,炎などの自然物シルエットを可塑性動物形として再解釈することで,この想像力を模倣するShape2Animalフレームワークを提案する。
我々の自動フレームワークは、まずオープン語彙セグメンテーションを行い、オブジェクトシルエットを抽出し、視覚言語モデルを用いて意味的に適切な動物概念を解釈する。
次に、入力形状に適合した動物画像を合成し、テキストと画像の拡散モデルを利用して、元のシーンにシームレスにブレンドし、視覚的に一貫性のある空間的に一貫した合成を生成する。
実世界の多様な入力に対してShape2Animalを評価し,その堅牢性と創造性を実証した。
われわれのShape2Animalは、ビジュアルストーリーテリング、教育コンテンツ、デジタルアート、インタラクティブメディアデザインの新しい機会を提供する。
私たちのプロジェクトページはこちらです。
関連論文リスト
- Reconstructing Animals and the Wild [51.98009864071166]
本研究では,単一画像から自然シーンを再構成する手法を提案する。
当社のアプローチは、大規模言語モデルにおける強力な世界の先駆的活用の進歩に基づくものです。
本稿では,100万枚の画像と数千枚の資産からなる合成データセットを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:24:27Z) - An Individual Identity-Driven Framework for Animal Re-Identification [15.381573249551181]
IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
論文 参考訳(メタデータ) (2024-10-30T11:34:55Z) - Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation [9.573188010530217]
ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
論文 参考訳(メタデータ) (2024-01-31T08:35:40Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Two-stage Synthetic Supervising and Multi-view Consistency
Self-supervising based Animal 3D Reconstruction by Single Image [30.997936022365018]
本研究では,2段階指導と自己監督訓練を組み合わせることで,動物による3Dスキャンの課題に対処する。
本研究は,鳥の3次元ディジタル化の定量的・定性的側面において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-22T07:06:38Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。