論文の概要: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation
Fusion with Painting Style
- arxiv url: http://arxiv.org/abs/2402.10381v1
- Date: Fri, 16 Feb 2024 00:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:53:17.290455
- Title: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation
Fusion with Painting Style
- Title(参考訳): umair-fps: ユーザ対応のマルチモーダルアニメーションイラストレコメンデーションと絵画スタイルとの融合
- Authors: Yan Kang, Hao Lin, Mingjian Yang, Shin-Jye Lee
- Abstract要約: ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン(UMAIR-FPS)を提案する。
特徴抽出フェーズでは、画像特徴量に対して、画像描画スタイルの特徴と意味的特徴を結合して、デュアル出力画像エンコーダを構築する。
テキスト特徴量に対して,微調整型文変換器をベースとしたテキスト埋め込みを実現する。
マルチモーダル・フュージョン・フェーズでは,ユーザを意識したマルチモーダル・コントリビューション計測機構を提案する。
- 参考スコア(独自算出の注目度): 5.944507308992659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of high-quality image generation models based on AI has
generated a deluge of anime illustrations. Recommending illustrations to users
within massive data has become a challenging and popular task. However,
existing anime recommendation systems have focused on text features but still
need to integrate image features. In addition, most multi-modal recommendation
research is constrained by tightly coupled datasets, limiting its applicability
to anime illustrations. We propose the User-aware Multi-modal Animation
Illustration Recommendation Fusion with Painting Style (UMAIR-FPS) to tackle
these gaps. In the feature extract phase, for image features, we are the first
to combine image painting style features with semantic features to construct a
dual-output image encoder for enhancing representation. For text features, we
obtain text embeddings based on fine-tuning Sentence-Transformers by
incorporating domain knowledge that composes a variety of domain text pairs
from multilingual mappings, entity relationships, and term explanation
perspectives, respectively. In the multi-modal fusion phase, we novelly propose
a user-aware multi-modal contribution measurement mechanism to weight
multi-modal features dynamically according to user features at the interaction
level and employ the DCN-V2 module to model bounded-degree multi-modal crosses
effectively. UMAIR-FPS surpasses the stat-of-the-art baselines on large
real-world datasets, demonstrating substantial performance enhancements.
- Abstract(参考訳): aiに基づく高品質な画像生成モデルの急速な進歩は、アニメのイラストレーションを生み出した。
大量のデータ内のユーザーにイラストを推薦することは、困難で人気のあるタスクとなっている。
しかし、既存のアニメレコメンデーションシステムはテキスト機能に焦点を当てているが、画像機能を統合する必要がある。
さらに、多くのマルチモーダルレコメンデーション研究は、密結合データセットによって制約されており、アニメイラストへの適用性が制限されている。
そこで本研究では,ユーザ対応のマルチモーダルアニメーションイラストレコメンデーションと絵画スタイル(umair-fps)との融合を提案する。
特徴抽出フェーズでは,画像特徴量に対して,画像描画スタイルの特徴と意味的特徴を組み合わせることで,表現性を高めるための双出力画像エンコーダを構築する。
テキストの特徴について,多言語マッピング,エンティティ関係,用語説明の観点から,さまざまなドメインテキストペアを構成するドメイン知識を取り入れ,微調整文変換器に基づくテキスト埋め込みを実現する。
マルチモーダル融合フェーズでは,対話レベルでのユーザ特徴に応じて動的にマルチモーダル特徴量重み付けを行うユーザアウェアマルチモーダル寄与測定機構を新規に提案し,dcn-v2モジュールを用いて有界度マルチモーダルクロスを効果的にモデル化する。
UMAIR-FPSは、大規模な実世界のデータセットにおける最先端のベースラインを超え、大幅なパフォーマンス向上を示す。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。
特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。
本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:55:49Z) - FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues [20.587249765287183]
Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。
FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。
PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-03-29T07:28:50Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。