論文の概要: Animalbooth: multimodal feature enhancement for animal subject personalization
- arxiv url: http://arxiv.org/abs/2509.16702v1
- Date: Sat, 20 Sep 2025 14:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.933611
- Title: Animalbooth: multimodal feature enhancement for animal subject personalization
- Title(参考訳): Animalbooth: 動物の主観的パーソナライゼーションのためのマルチモーダル機能強化
- Authors: Chen Liu, Haitao Wu, Kafeng Wang, Xiaowang Zhang,
- Abstract要約: 動物ネットとアダプティブアテンションモジュールによるアイデンティティ保護を強化するフレームワークであるAnimalBoothを提案する。
この領域の研究を進めるために,動物パーソナライズのための高解像度データセットであるAnimalBenchをキュレートした。
- 参考スコア(独自算出の注目度): 11.245966056673991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized animal image generation is challenging due to rich appearance cues and large morphological variability. Existing approaches often exhibit feature misalignment across domains, which leads to identity drift. We present AnimalBooth, a framework that strengthens identity preservation with an Animal Net and an adaptive attention module, mitigating cross domain alignment errors. We further introduce a frequency controlled feature integration module that applies Discrete Cosine Transform filtering in the latent space to guide the diffusion process, enabling a coarse to fine progression from global structure to detailed texture. To advance research in this area, we curate AnimalBench, a high resolution dataset for animal personalization. Extensive experiments show that AnimalBooth consistently outperforms strong baselines on multiple benchmarks and improves both identity fidelity and perceptual quality.
- Abstract(参考訳): 個人化された動物画像の生成は、外見の豊かさと大きな形態的変動のために困難である。
既存のアプローチでは、ドメイン間の特徴的不一致がしばしば現れ、アイデンティティのドリフトにつながる。
AnimalBoothは、Animal Netとアダプティブアテンションモジュールによるアイデンティティ保護を強化し、ドメイン間のアライメントエラーを緩和するフレームワークである。
さらに、拡散過程を導出するために、離散コサイン変換フィルタを潜時空間に応用し、大域構造から詳細なテクスチャへの微妙な進展を可能にする周波数制御機能統合モジュールを導入する。
この領域の研究を進めるために,動物パーソナライズのための高解像度データセットであるAnimalBenchをキュレートした。
大規模な実験によると、AnimalBoothは複数のベンチマークにおいて、強いベースラインを一貫して上回り、アイデンティティの忠実さと知覚品質の両方を改善している。
関連論文リスト
- DiffPose-Animal: A Language-Conditioned Diffusion Framework for Animal Pose Estimation [1.1708207558288541]
DiffPose-Animalは,トップダウン動物ポーズ推定のための新しい拡散型フレームワークである。
従来の熱マップ回帰法とは異なり、DiffPose-Animal は拡散モデルの生成的枠組みの下でデノナイジング過程として推定する。
論文 参考訳(メタデータ) (2025-08-12T09:37:09Z) - AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer [26.738709781346678]
スケーラブルなAniMerフレームワークの拡張バージョンであるAniMer+を紹介します。
AniMer+の重要なイノベーションは、その高容量、家族対応ビジョントランス(ViT)である。
CtrlAni3D for quadrupeds と CtrlAVES3D for birds の2つの大規模な合成データセットを生成した。
論文 参考訳(メタデータ) (2025-08-01T03:53:03Z) - SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification [5.420786129061269]
本稿では,ストリップ認識型空間知覚に基づく細粒度鳥の画像分類フレームワークを提案する。
提案手法は, 拡張知覚アグリゲータ (EPA) とチャネルセマンティックウィービング (CSW) の2つの新しいモジュールを含む。
ResNet-50のバックボーン上に構築されたこのモデルは、空間領域を越えて拡張された構造的特徴のジャンプワイズ接続を可能にする。
論文 参考訳(メタデータ) (2025-05-30T09:10:12Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - MetaWild: A Multimodal Dataset for Animal Re-Identification with Environmental Metadata [12.66570183161988]
本稿では,既存の視覚言語モデル(VLM)に基づくAnimal ReID手法に組み込む軽量モジュールを提案する。
MetaWildの実験では、ベースラインReIDモデルとMFAを組み合わせることでメタデータを組み込むことで、パフォーマンスが一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-01-23T04:14:59Z) - OpenAnimals: Revisiting Person Re-Identification for Animals Towards Better Generalization [10.176567936487364]
本研究は,BoT,AGW,SBS,MGNなど,最先端の人物再同定手法を再検討することによって実施する。
我々は,HyenaID,LeopardID,SeaTurtleID,WhaleSharkIDなどの動物再同定ベンチマークにおいて,その有効性を評価する。
以上の結果から,いくつかの手法がうまく機能する一方で,多くの手法が一般化せず,2つの課題の間に有意な違いがあることが判明した。
textbfAnimal textbfReに適した強力な textbfBase モデルである ARBase を提案する。
論文 参考訳(メタデータ) (2024-09-30T20:07:14Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Out-of-Domain Robustness via Targeted Augmentations [90.94290420322457]
領域外一般化のためのデータ拡張設計の原理を考察する。
線形設定に関する理論的解析により動機付けを行い,対象拡大を提案する。
その結果,OOD性能は3.2~15.2ポイント向上した。
論文 参考訳(メタデータ) (2023-02-23T08:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。