論文の概要: NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries
- arxiv url: http://arxiv.org/abs/2603.05446v1
- Date: Thu, 05 Mar 2026 18:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.362134
- Title: NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries
- Title(参考訳): NaiLIA: Dense Intent DescriptionとPalette Queriesに基づくマルチモーダルネイル設計検索
- Authors: Kanon Amemiya, Daichi Yashima, Kei Katsumata, Takumi Komatsu, Ryosuke Korekata, Seitaro Otsuki, Komei Sugiura,
- Abstract要約: 本研究は,高密度な意図記述に基づく爪デザイン画像の検索作業に焦点をあてる。
NaiLIAはネイルデザイン画像のマルチモーダル検索手法である。
- 参考スコア(独自算出の注目度): 2.606403296486691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the task of retrieving nail design images based on dense intent descriptions, which represent multi-layered user intent for nail designs. This is challenging because such descriptions specify unconstrained painted elements and pre-manufactured embellishments as well as visual characteristics, themes, and overall impressions. In addition to these descriptions, we assume that users provide palette queries by specifying zero or more colors via a color picker, enabling the expression of subtle and continuous color nuances. Existing vision-language foundation models often struggle to incorporate such descriptions and palettes. To address this, we propose NaiLIA, a multimodal retrieval method for nail design images, which comprehensively aligns with dense intent descriptions and palette queries during retrieval. Our approach introduces a relaxed loss based on confidence scores for unlabeled images that can align with the descriptions. To evaluate NaiLIA, we constructed a benchmark consisting of 10,625 images collected from people with diverse cultural backgrounds. The images were annotated with long and dense intent descriptions given by over 200 annotators. Experimental results demonstrate that NaiLIA outperforms standard methods.
- Abstract(参考訳): 本研究は,多層的ユーザ意図を表す高密度なインテント記述に基づくネイルデザイン画像の検索に焦点をあてる。
このような記述は、未制約の塗装要素や前制作の装飾、視覚的特徴、テーマ、全体的な印象を規定しているため、これは難しい。
これらの説明に加えて、カラーピッカーを介してゼロ以上の色を指定し、微妙で連続的な色のニュアンスを表現することで、ユーザがパレットクエリを提供すると仮定する。
既存の視覚言語基盤モデルは、しばしばそのような記述やパレットを組み込むのに苦労する。
そこで本研究では,爪デザイン画像のマルチモーダル検索手法であるNaiLIAを提案する。
提案手法では, ラベルのない画像に対して, 信頼度に基づくゆるやかな損失を導入し, 記述と整合性を持たせる。
NaiLIAを評価するために,多様な文化的背景を持つ人々から収集した10,625枚の画像からなるベンチマークを構築した。
この画像は、200以上の注釈者によって与えられた長くて密度の高い意図の記述で注釈付けされた。
実験の結果, NaiLIAは標準手法よりも優れていた。
関連論文リスト
- Exploring Palette based Color Guidance in Diffusion Models [5.80330969550483]
そこで本研究では、カラーパレットをインシデント命令と並行して個別の誘導機構として統合することで、カラースキーム制御を強化する新しい手法を提案する。
この結果から,パレットガイダンスを取り入れることで,所望のカラースキームで画像を生成する能力が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2025-08-12T09:02:10Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [28.345828491336874]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - L-CAD: Language-based Colorization with Any-level Descriptions using
Diffusion Priors [62.80068955192816]
我々は,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。
我々は、その頑健な言語理解と豊かな色優先のために、事前訓練されたモダリティ生成モデルを活用する。
提案した新しいサンプリング戦略により,多様な複雑なシナリオにおいて,インスタンス認識のカラー化を実現する。
論文 参考訳(メタデータ) (2023-05-24T14:57:42Z) - PalGAN: Image Colorization with Palette Generative Adversarial Networks [51.59276436217957]
そこで本研究では,パレット推定とカラーアテンションを統合した新しいGANベースのカラー化手法PalGANを提案する。
PalGANは、定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、およびエッジ保存の外観を提供する。
論文 参考訳(メタデータ) (2022-10-20T12:28:31Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Style Transfer with Target Feature Palette and Attention Coloring [15.775618544581885]
特徴パレットをターゲットとした新しい芸術的スタイル化手法を提案し,重要な特徴を正確に伝達することができる。
このスタイリング画像は、コア構造とコンテンツ画像の詳細の保存に長けながら、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-11-07T08:09:20Z) - Generating Compositional Color Representations from Text [3.141061579698638]
画像検索エンジン上のユーザクエリのかなりの部分が(属性、オブジェクト)構造に従っているという事実に触発され、このような大局的な色プロファイルを生成する生成逆ネットワークを提案する。
コンポジションを学ぶためにパイプラインを設計します - 見た属性とオブジェクトを、目に見えないペアに組み合わせる機能です。
論文 参考訳(メタデータ) (2021-09-22T01:37:13Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。