論文の概要: Not All Birds Look The Same: Identity-Preserving Generation For Birds
- arxiv url: http://arxiv.org/abs/2512.04485v1
- Date: Thu, 04 Dec 2025 05:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.013088
- Title: Not All Birds Look The Same: Identity-Preserving Generation For Birds
- Title(参考訳): すべての鳥が同じに見えるわけではない: 鳥のアイデンティティを保存する世代
- Authors: Aaron Sun, Oindrila Saha, Subhransu Maji,
- Abstract要約: NABirds Look-Alikesデータセットを紹介する。
我々は、最先端のベースラインが、このデータセットのアイデンティティを維持できないことを示す。
- 参考スコア(独自算出の注目度): 20.097677797868915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since the advent of controllable image generation, increasingly rich modes of control have enabled greater customization and accessibility for everyday users. Zero-shot, identity-preserving models such as Insert Anything and OminiControl now support applications like virtual try-on without requiring additional fine-tuning. While these models may be fitting for humans and rigid everyday objects, they still have limitations for non-rigid or fine-grained categories. These domains often lack accessible, high-quality data -- especially videos or multi-view observations of the same subject -- making them difficult both to evaluate and to improve upon. Yet, such domains are essential for moving beyond content creation toward applications that demand accuracy and fine detail. Birds are an excellent domain for this task: they exhibit high diversity, require fine-grained cues for identification, and come in a wide variety of poses. We introduce the NABirds Look-Alikes (NABLA) dataset, consisting of 4,759 expert-curated image pairs. Together with 1,073 pairs collected from multi-image observations on iNaturalist and a small set of videos, this forms a benchmark for evaluating identity-preserving generation of birds. We show that state-of-the-art baselines fail to maintain identity on this dataset, and we demonstrate that training on images grouped by species, age, and sex -- used as a proxy for identity -- substantially improves performance on both seen and unseen species.
- Abstract(参考訳): コントロール可能な画像生成の登場以来、リッチな制御モードにより、日々のユーザーにとってよりカスタマイズとアクセシビリティが向上した。
Insert AnythingやOminiControlのようなゼロショットのアイデンティティ保存モデルは、追加の微調整を必要とせずに仮想トライオンのようなアプリケーションをサポートする。
これらのモデルは、人間や硬直した日常の物体に適合するかもしれないが、それでも厳密でないカテゴリーや細かいカテゴリーに制限がある。
これらのドメインは、アクセス可能で高品質なデータ -- 特にビデオや同じ主題のマルチビューの観察 -- を欠いているため、評価も改善も困難です。
しかし、そのようなドメインはコンテンツ作成を超えて、正確さと細部を要求されるアプリケーションに移行するために不可欠です。
鳥は高い多様性を示し、識別にはきめ細かい手がかりを必要とし、さまざまなポーズを取る。
NABirds Look-Alikes (NABLA)データセットは,4,759個の専門家による画像ペアで構成されている。
iNaturalistのマルチイメージ観測から収集された1,073対と、ビデオの小さなセットとともに、これはアイデンティティを保存する鳥類の生成を評価するためのベンチマークを形成する。
我々は、最先端のベースラインが、このデータセットのアイデンティティを維持できないことを示し、種、年齢、性別によってグループ化された画像(アイデンティティーのプロキシとして使用される)のトレーニングが、目に見えない種と見えない種の両方のパフォーマンスを大幅に改善することを示した。
関連論文リスト
- SASP: Strip-Aware Spatial Perception for Fine-Grained Bird Image Classification [5.420786129061269]
本稿では,ストリップ認識型空間知覚に基づく細粒度鳥の画像分類フレームワークを提案する。
提案手法は, 拡張知覚アグリゲータ (EPA) とチャネルセマンティックウィービング (CSW) の2つの新しいモジュールを含む。
ResNet-50のバックボーン上に構築されたこのモデルは、空間領域を越えて拡張された構造的特徴のジャンプワイズ接続を可能にする。
論文 参考訳(メタデータ) (2025-05-30T09:10:12Z) - Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos [0.0]
本研究では,鳥の行動検出と種分類に特化して設計されたビデオデータセットについて紹介する。
提案したデータセットは、スペインの湿地で記録された178のビデオで構成され、13の異なる鳥種が7つの異なる行動クラスを実行している。
論文 参考訳(メタデータ) (2025-01-15T16:34:20Z) - Multispecies Animal Re-ID Using a Large Community-Curated Dataset [0.19418036471925312]
我々は、49種、37K個体、および225K画像を含むデータセットを構築し、このデータを用いて、すべての種に対して単一の埋め込みネットワークをトレーニングする。
我々のモデルは、各種で個別に訓練されたモデルより一貫して優れており、トップ1の精度で平均12.5%向上している。
このモデルは、大規模な野生生物モニタリングシステムですでに60種以上で生産されている。
論文 参考訳(メタデータ) (2024-12-07T09:56:33Z) - An Individual Identity-Driven Framework for Animal Re-Identification [15.381573249551181]
IndivAIDはAnimal ReID用に特別に設計されたフレームワークである。
画像特異的で個人固有のテキスト記述を生成し、動物画像を通して個々の視覚概念をフルにキャプチャする。
8つのベンチマークデータセットと現実世界のStoatデータセットにわたる最先端メソッドに対する評価は、IndivAIDの有効性と適用性を示している。
論文 参考訳(メタデータ) (2024-10-30T11:34:55Z) - An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification [58.5877965612088]
人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。
既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。
OWDと呼ばれる新しいOpen-World, Diverse, Cross-Spatial-Temporalデータセットを開発した。
論文 参考訳(メタデータ) (2024-03-22T11:21:51Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping [22.30038765017189]
本稿では,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータ認識型自己教師型学習(SSL)フレームワークを提案する。
当社のフレームワークは,コントラスト学習(CL)とMasked Image Modeling(MIM)の2つのSSL戦略を統合するとともに,鳥の地上レベルの画像にメタデータを付加した埋め込み空間を充実させる。
本研究では,小粒度の視覚的分類(FGVC)とクロスモーダル検索(クロスモーダル検索)という2つの下流課題に基づいて,鳥の細粒度・地理的に条件付けられた特徴を学習できることを実証した。
論文 参考訳(メタデータ) (2023-10-29T22:08:00Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。