Fugu-MT 論文翻訳(概要): UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style

論文の概要: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style

arxiv url: http://arxiv.org/abs/2402.10381v2
Date: Wed, 17 Apr 2024 13:46:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 18:51:21.423947
Title: UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style
Title（参考訳）: UMAIR-FPS:ペイントスタイルのマルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン
Authors: Yan Kang, Hao Lin, Mingjian Yang, Shin-Jye Lee,
Abstract要約: ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン(UMAIR-FPS)を提案する。特徴抽出フェーズでは、画像特徴量に対して、画像描画スタイルの特徴と意味的特徴を結合して、デュアル出力画像エンコーダを構築する。テキスト特徴量に対して,微調整型文変換器をベースとしたテキスト埋め込みを実現する。マルチモーダル・フュージョン・フェーズでは,ユーザを意識したマルチモーダル・コントリビューション計測機構を提案する。
参考スコア（独自算出の注目度）: 5.441554441737648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of high-quality image generation models based on AI has generated a deluge of anime illustrations. Recommending illustrations to users within massive data has become a challenging and popular task. However, existing anime recommendation systems have focused on text features but still need to integrate image features. In addition, most multi-modal recommendation research is constrained by tightly coupled datasets, limiting its applicability to anime illustrations. We propose the User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style (UMAIR-FPS) to tackle these gaps. In the feature extract phase, for image features, we are the first to combine image painting style features with semantic features to construct a dual-output image encoder for enhancing representation. For text features, we obtain text embeddings based on fine-tuning Sentence-Transformers by incorporating domain knowledge that composes a variety of domain text pairs from multilingual mappings, entity relationships, and term explanation perspectives, respectively. In the multi-modal fusion phase, we novelly propose a user-aware multi-modal contribution measurement mechanism to weight multi-modal features dynamically according to user features at the interaction level and employ the DCN-V2 module to model bounded-degree multi-modal crosses effectively. UMAIR-FPS surpasses the stat-of-the-art baselines on large real-world datasets, demonstrating substantial performance enhancements.
Abstract（参考訳）: AIに基づく高品質な画像生成モデルの急速な進歩は、アニメのイラストを大量に生成している。大量のデータ内のユーザにイラストを推薦することは、困難で人気の高いタスクになっている。しかし、既存のアニメレコメンデーションシステムはテキスト機能に重点を置いているが、画像機能を統合する必要がある。さらに、ほとんどのマルチモーダルレコメンデーション研究は、密結合したデータセットによって制約されており、アニメイラストへの適用性が制限されている。ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン・アット・ペイントスタイル(UMAIR-FPS)を提案する。特徴抽出フェーズでは、画像の描画スタイルの特徴を意味的特徴と組み合わせ、表現の強化のためのデュアル出力画像エンコーダを構築する。テキストの特徴として,多言語マッピング,エンティティリレーション,用語説明の観点から,さまざまなドメインテキストペアを構成するドメイン知識を組み込むことで,微調整文変換器をベースとしたテキスト埋め込みを実現する。マルチモーダル・フュージョン・フェーズでは,ユーザ特徴に応じて動的にマルチモーダル特徴量を重み付けするマルチモーダル・コントリビューション・メカニズムを新規に提案し,有界なマルチモーダル・クロスを効果的にモデル化するためにDCN-V2モジュールを用いる。 UMAIR-FPSは、大規模な実世界のデータセットにおける最先端のベースラインを超え、大幅なパフォーマンス向上を示す。

関連論文リスト

Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion [11.914081442317494]
VIRALは、Vision-Language and Information-Aware Recommendationフレームワークである。意味的に整合した画像表現のための、きめ細かいタイトル誘導記述を生成する。 3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-11-03T23:01:27Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
Show-o2: Improved Native Unified Multimodal Models [57.34173415412808]
Show-o2は、自動回帰モデリングとフローマッチングを利用するネイティブ統合マルチモーダルモデルである。 3次元因果変分オートエンコーダ空間上に構築され、空間的(時間的)融合の二重経路によって統一された視覚表現が構成される。
論文参考訳（メタデータ） (2025-06-18T15:39:15Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文参考訳（メタデータ） (2025-03-14T08:31:21Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation [22.69019130782004]
フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
論文参考訳（メタデータ） (2024-04-08T16:55:49Z)
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues [20.587249765287183]
Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。 FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。 PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2024-03-29T07:28:50Z)
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文参考訳（メタデータ） (2024-01-24T11:36:44Z)
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文参考訳（メタデータ） (2023-09-25T17:53:29Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。