論文の概要: Mixed-Modality Dual Face-Hair Retrieval
- arxiv url: http://arxiv.org/abs/2606.03470v1
- Date: Tue, 02 Jun 2026 10:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.948089
- Title: Mixed-Modality Dual Face-Hair Retrieval
- Title(参考訳): 混合モードデュアルフェイスヘア検索
- Authors: Quoc-Anh Bui-Huynh, Mai-Tuyen Lam, Dai-Anh-Tuan Nguyen, Thanh Duc Ngo,
- Abstract要約: 画像検索における新たな複合モード二重参照タスクであるDFHR(Dual Face-Hair Retrieval)を導入する。
DFHRは、アイデンティティとヘアスタイルという2つの意味的に独立した属性間のクロスコンポーネント推論を必要とする。
混合モダリティ顔髪検索のための最初のベンチマークであるDFHR-Benchを構築した。
- 参考スコア(独自算出の注目度): 2.9248916859490173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Dual Face-Hair Retrieval (DFHR), a new mixed-modality dual-reference task in image retrieval where a query consists of a face image specifying identity and a hairstyle reference expressed as either an image or text. Unlike prior retrieval settings, DFHR requires cross-component reasoning between two semantically independent attributes -- identity and hairstyle -- originating from heterogeneous modalities. This formulation demands localized feature disentanglement, cross-modal semantic alignment, and mixed-modality composition within a unified embedding space. We construct DFHR-Bench, the first benchmark for mixed-modality face-hair retrieval, comprising over 180K annotated triplets across dual-image and image-text settings, built via a multi-stage annotation protocol ensuring semantic and identity integrity. We further propose MFHC (Multimodal Face-Hair Combiner), a unified framework that fuses disentangled identity and hairstyle embeddings through token injection and multi-view supervision. DFHR and DFHR-Bench together establish a new paradigm for identity-aware, attribute-controllable visual retrieval across modalities.
- Abstract(参考訳): 本稿では,画像検索における新たな複合モーダル二重参照タスクであるDual Face-Hair Retrieval(DFHR)を紹介する。
以前の検索設定とは異なり、DFHRは不均一なモーダル性から派生した2つの意味論的独立属性(アイデンティティとヘアスタイル)間のクロスコンポーネント推論を必要とする。
この定式化は、統一埋め込み空間内での局所化された特徴のゆがみ、クロスモーダルなセマンティックアライメント、および混合モダリティの構成を要求する。
DFHR-Benchは,多段階のアノテーションプロトコルを用いて構築され,意味とアイデンティティの整合性を保証する。
MFHC(Multimodal Face-Hair Combiner)も提案する。トークン注入と多視点監視により,絡み合ったアイデンティティとヘアスタイルの埋め込みを融合する統合フレームワークである。
DFHRとDFHR-Benchは、同一性を意識した属性制御可能な視覚的検索のための新しいパラダイムを確立する。
関連論文リスト
- UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation [65.53694602893042]
VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T13:10:05Z) - MAUGen: A Unified Diffusion Approach for Multi-Identity Facial Expression and AU Label Generation [18.996319133901473]
拡散に基づくマルチモーダル・フレームワークであるMAUGenを提案する。
本フレームワークでは、包括的AUアノテーションとアイデンティティのバリエーションを備えた大規模マルチモーダル合成データセットであるMIFA(Multi-Identity Facial Action)を導入する。
論文 参考訳(メタデータ) (2026-01-31T07:56:22Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - PS-ReID: Advancing Person Re-Identification and Precise Segmentation with Multimodal Retrieval [38.530536338075684]
人物再識別(ReID)は、セキュリティ監視や刑事捜査などの応用において重要な役割を果たす。
画像とテキストの入力を組み合わせたマルチモーダルモデルであるbf PS-ReIDを提案する。
実験の結果、PS-ReIDは、ReIDとセグメンテーションタスクの両方において、ユニモーダルクエリベースのモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-27T15:14:03Z) - OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。