Fugu-MT 論文翻訳(概要): Omni-ID: Holistic Identity Representation Designed for Generative Tasks

論文の概要: Omni-ID: Holistic Identity Representation Designed for Generative Tasks

arxiv url: http://arxiv.org/abs/2412.09694v1
Date: Thu, 12 Dec 2024 19:21:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.753898
Title: Omni-ID: Holistic Identity Representation Designed for Generative Tasks
Title（参考訳）: Omni-ID: 生成タスク用に設計されたホロスティックなアイデンティティ表現
Authors: Guocheng Qian, Kuan-Chieh Wang, Or Patashnik, Negin Heravi, Daniil Ostashev, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman,
Abstract要約: Omni-IDは、様々な表現にまたがる個人の外観に関する全体的な情報をエンコードする。様々な数の非構造化入力画像から情報を構造化表現に集約する。様々な生成タスクにまたがる従来の表現よりも大幅に改善されている。
参考スコア（独自算出の注目度）: 75.29174595706533
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Omni-ID, a novel facial representation designed specifically for generative tasks. Omni-ID encodes holistic information about an individual's appearance across diverse expressions and poses within a fixed-size representation. It consolidates information from a varied number of unstructured input images into a structured representation, where each entry represents certain global or local identity features. Our approach uses a few-to-many identity reconstruction training paradigm, where a limited set of input images is used to reconstruct multiple target images of the same individual in various poses and expressions. A multi-decoder framework is further employed to leverage the complementary strengths of diverse decoders during training. Unlike conventional representations, such as CLIP and ArcFace, which are typically learned through discriminative or contrastive objectives, Omni-ID is optimized with a generative objective, resulting in a more comprehensive and nuanced identity capture for generative tasks. Trained on our MFHQ dataset -- a multi-view facial image collection, Omni-ID demonstrates substantial improvements over conventional representations across various generative tasks.
Abstract（参考訳）: 生成タスクに特化して設計された新しい顔表現であるOmni-IDを紹介する。 Omni-IDは、様々な表現にまたがる個人の外観に関する全体的情報をエンコードし、固定サイズの表現の中でポーズする。多様な非構造化入力画像からの情報を構造化表現に集約し、各エントリは特定のグローバルまたはローカルなアイデンティティの特徴を表す。提案手法では,複数の個人を対象とする複数のイメージを,さまざまなポーズや表現で再構成するために,入力画像の限られたセットを用いる,数対多のアイデンティティ再構築訓練パラダイムを用いている。マルチデコーダフレームワークは、トレーニング中に多様なデコーダの相補的な強度を活用するためにさらに使用される。 CLIPやArcFaceのような従来の表現とは異なり、Omni-IDはジェネレーティブな目的で最適化されており、それによって生成タスクに対してより包括的でニュアンスのあるアイデンティティーキャプチャが生成される。マルチビューの顔画像収集であるMFHQデータセットでトレーニングされたOmni-IDは、さまざまな生成タスクにおける従来の表現よりも大幅に改善されている。

関連論文リスト

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
DynamicIDは、デュアルステージトレーニングパラダイムでサポートされているチューニング不要のフレームワークである。 VariFace-10k顔データセットは,それぞれ35種類の顔画像で表現された10k個の個人からなる。
論文参考訳（メタデータ） (2025-03-09T08:16:19Z)
Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-01-02T18:59:44Z)
Dynamic Token Selection for Aerial-Ground Person Re-Identification [0.36832029288386137]
AGPReIDに適した新しい動的トークン選択変換器(DTST)を提案する。入力画像を複数のトークンに分割し、各トークンは画像内のユニークな領域や特徴を表す。我々はTop-k戦略を用いて、識別に不可欠な重要な情報を含む最も重要なトークンkを抽出する。
論文参考訳（メタデータ） (2024-11-30T11:07:11Z)
CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。 MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文参考訳（メタデータ） (2024-06-17T15:26:22Z)
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文参考訳（メタデータ） (2024-04-30T10:16:21Z)
ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [66.09976326184066]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文参考訳（メタデータ） (2024-04-25T17:23:43Z)
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文参考訳（メタデータ） (2024-03-20T12:13:04Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)
Semantic Consistency and Identity Mapping Multi-Component Generative Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-28T14:12:29Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)
Uncertainty-Aware Multi-Shot Knowledge Distillation for Image-Based Object Re-Identification [93.39253443415392]
各画像の特徴学習を指導するために,同一のアイデンティティのマルチショットを活用することを提案する。それは、同一物体の複数の画像から包括的特徴を学習する教師ネットワーク(T-net)と、1つの画像を入力として取る学生ネットワーク(S-net)から構成される。提案手法の有効性を,一般的な車種と個人用車種に検証した。
論文参考訳（メタデータ） (2020-01-15T09:39:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。