論文の概要: Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
- arxiv url: http://arxiv.org/abs/2512.10955v1
- Date: Thu, 11 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.581748
- Title: Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
- Title(参考訳): Omni-Attribute:視覚概念パーソナライゼーションのためのオープン語彙属性エンコーダ
- Authors: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov,
- Abstract要約: 我々はOmni-Attributeを紹介した。Omni-Attributeは、属性固有の表現を学習するための最初のオープン語彙画像属性エンコーダである。
我々は、生成的忠実度と対照的な非絡み合いのバランスをとる、二重目的学習パラダイムを使用する。
結果として得られる埋め込みは、オープン語彙属性の検索、パーソナライゼーション、合成生成に有効である。
- 参考スコア(独自算出の注目度): 82.31106470150844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.
- Abstract(参考訳): 視覚概念のパーソナライゼーションは、アイデンティティ、表現、照明、スタイルなどの特定のイメージ属性のみを目に見えないコンテキストに転送することを目的としている。
しかし、既存の手法では、複数の視覚的要因を絡み合わせる汎用画像エンコーダの全体像埋め込みに依存しており、単一の属性を分離することが困難である。
これはしばしば情報漏洩と不整合合成につながる。
この制限に対処するため,我々はOmni-Attributeを紹介した。
我々のアプローチは、データとモデルを共同で設計する。
一 正及び負の属性を付加した意味連結画像対をキュレートし、エンコーダに保存又は抑制の方法を明示的に教える。
(II) 両目的訓練パラダイムを採用し, 生成的忠実度とコントラスト的ゆがみのバランスをとる。
結果として得られる埋め込みは、オープン語彙属性の検索、パーソナライゼーション、合成生成に有効であることが証明され、複数のベンチマークで最先端のパフォーマンスが達成される。
関連論文リスト
- ComposeMe: Attribute-Specific Image Prompts for Controllable Human Image Generation [39.34778197087224]
本稿では,属性特異的な画像プロンプトのための新しいパラダイムを紹介し,人間の外見の個々の側面の生成を導くために,異なる参照画像群を用いる。
提案手法は,これらの入力を属性固有のトークンにエンコードし,事前学習したテキスト・画像拡散モデルに注入する。
これにより、複数の視覚的要因に対する構成的および非絡み合いの制御が可能となり、1つの画像内の複数の人にわたっても可能となる。
論文 参考訳(メタデータ) (2025-09-22T17:59:30Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。
画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。
生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文 参考訳(メタデータ) (2024-08-07T21:44:29Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Learning to Infer Unseen Single-/Multi-Attribute-Object Compositions with Graph Networks [47.43595942156663]
本稿では,複雑な関係を学習するための属性オブジェクト意味関連グラフモデルを提案する。
属性とオブジェクトを表すノードでは、グラフは柔軟に構築でき、単一の属性と複数属性オブジェクトの合成認識を実現する。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。