論文の概要: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style
- arxiv url: http://arxiv.org/abs/2402.10381v2
- Date: Wed, 17 Apr 2024 13:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:51:21.423947
- Title: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style
- Title(参考訳): UMAIR-FPS:ペイントスタイルのマルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン
- Authors: Yan Kang, Hao Lin, Mingjian Yang, Shin-Jye Lee,
- Abstract要約: ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン(UMAIR-FPS)を提案する。
特徴抽出フェーズでは、画像特徴量に対して、画像描画スタイルの特徴と意味的特徴を結合して、デュアル出力画像エンコーダを構築する。
テキスト特徴量に対して,微調整型文変換器をベースとしたテキスト埋め込みを実現する。
マルチモーダル・フュージョン・フェーズでは,ユーザを意識したマルチモーダル・コントリビューション計測機構を提案する。
- 参考スコア(独自算出の注目度): 5.441554441737648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of high-quality image generation models based on AI has generated a deluge of anime illustrations. Recommending illustrations to users within massive data has become a challenging and popular task. However, existing anime recommendation systems have focused on text features but still need to integrate image features. In addition, most multi-modal recommendation research is constrained by tightly coupled datasets, limiting its applicability to anime illustrations. We propose the User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style (UMAIR-FPS) to tackle these gaps. In the feature extract phase, for image features, we are the first to combine image painting style features with semantic features to construct a dual-output image encoder for enhancing representation. For text features, we obtain text embeddings based on fine-tuning Sentence-Transformers by incorporating domain knowledge that composes a variety of domain text pairs from multilingual mappings, entity relationships, and term explanation perspectives, respectively. In the multi-modal fusion phase, we novelly propose a user-aware multi-modal contribution measurement mechanism to weight multi-modal features dynamically according to user features at the interaction level and employ the DCN-V2 module to model bounded-degree multi-modal crosses effectively. UMAIR-FPS surpasses the stat-of-the-art baselines on large real-world datasets, demonstrating substantial performance enhancements.
- Abstract(参考訳): AIに基づく高品質な画像生成モデルの急速な進歩は、アニメのイラストを大量に生成している。
大量のデータ内のユーザにイラストを推薦することは、困難で人気の高いタスクになっている。
しかし、既存のアニメレコメンデーションシステムはテキスト機能に重点を置いているが、画像機能を統合する必要がある。
さらに、ほとんどのマルチモーダルレコメンデーション研究は、密結合したデータセットによって制約されており、アニメイラストへの適用性が制限されている。
ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン・アット・ペイントスタイル(UMAIR-FPS)を提案する。
特徴抽出フェーズでは、画像の描画スタイルの特徴を意味的特徴と組み合わせ、表現の強化のためのデュアル出力画像エンコーダを構築する。
テキストの特徴として,多言語マッピング,エンティティリレーション,用語説明の観点から,さまざまなドメインテキストペアを構成するドメイン知識を組み込むことで,微調整文変換器をベースとしたテキスト埋め込みを実現する。
マルチモーダル・フュージョン・フェーズでは,ユーザ特徴に応じて動的にマルチモーダル特徴量を重み付けするマルチモーダル・コントリビューション・メカニズムを新規に提案し,有界なマルチモーダル・クロスを効果的にモデル化するためにDCN-V2モジュールを用いる。
UMAIR-FPSは、大規模な実世界のデータセットにおける最先端のベースラインを超え、大幅なパフォーマンス向上を示す。
関連論文リスト
- MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。
特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。
本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:55:49Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues [20.587249765287183]
Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。
FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。
PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-03-29T07:28:50Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional
Diffusion [39.397961646315665]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。