Fugu-MT 論文翻訳(概要): Towards Customized Multimodal Role-Play

論文の概要: Towards Customized Multimodal Role-Play

arxiv url: http://arxiv.org/abs/2605.08129v1
Date: Fri, 01 May 2026 03:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.726621
Title: Towards Customized Multimodal Role-Play
Title（参考訳）: カスタマイズされたマルチモーダルロールプレイを目指して
Authors: Chao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong,
Abstract要約: マルチモーダル理解と生成モデルは、よりリッチなヒューマン-AIインタラクションを可能にする。しかし、文字のペルソナ、対話スタイル、視覚的アイデンティティを共同でカスタマイズする一方で、モダリティ間の出力一貫性を維持することは、ほとんど探索されていない。本研究では,20文字からなるRoleScape-20データセットを構築した。 UniCharacterは、Unified Supervised Finetuning(Unified-SFT)とCharacter-GRPO(Character-GRPO)を含む2段階のトレーニングフレームワークである。
参考スコア（独自算出の注目度）: 50.72454102691162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.
Abstract（参考訳）: 統一されたマルチモーダル理解と生成モデルは、よりリッチな人間とAIの相互作用を可能にする。しかし、文字のペルソナ、対話スタイル、視覚的アイデンティティを共同でカスタマイズする一方で、モダリティ間の出力一貫性を維持することは、ほとんど探索されていない。このギャップを軽減するために、CMRP(Customized Multimodal Role-Play)という新しいタスクを導入する。本研究では,20文字からなるRoleScape-20データセットを構築した。統一モデル上に構築したUniCharacterは,Unified Supervised Finetuning (Unified-SFT)と文字固有のグループ相対ポリシー最適化 (Character-GRPO)を含む2段階のトレーニングフレームワークである。 10個の画像と対応する相互作用例が与えられたモデルでは、ターゲット文字を取得し、生成したテキストと画像の両方において、一貫性のあるペルソナ、スタイル、および視覚的アイデンティティを示す。このプロセスは約100GPU時間を要する。 RoleScape-20データセットの実験は、提案手法が従来の手法よりも大幅に優れていることを示している。アブレーション研究は、我々のクロスモーダル整合設計と少数ショットカスタマイズ戦略の有効性をさらに検証する。我々はCMRPと統合モデリングが組み合わさって、次世代のキャラクタフルで没入型対話エージェントの基礎となることを論じる。

関連論文リスト

Customized Visual Storytelling with Unified Multimodal LLMs [19.106229466343787]
VstoryGenは、記述と文字と背景参照を統合して、カスタマイズ可能なストーリー生成を可能にするフレームワークである。映像データに対してパラメータ効率のよいプロンプトチューニングによるショット型制御を導入し,映像文法をより忠実に反映したシーケンスを生成する。
論文参考訳（メタデータ） (2026-03-29T13:24:51Z)
Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization [35.14373974143734]
既存の統一モデルにおいて,この能力を解放するための強化学習に基づくポストトレーニング戦略を提案する。提案手法は,1つの復号軌道内でのテキスト生成と画像生成を共同でモデル化し,新たなハイブリッド報酬で最適化する。 MMIEとInterleavedBenchの実験により,マルチモーダルインターリーブド生成の品質とコヒーレンスを大幅に向上させることが実証された。
論文参考訳（メタデータ） (2026-03-10T11:49:20Z)
PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards [86.1965460124838]
スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
論文参考訳（メタデータ） (2025-12-01T03:25:49Z)
Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification [26.689580621314576]
外部マルチモーダル知識によるテキストクエリの識別性を高めるための対話型クロスモーダル学習フレームワーク(ICL)を提案する。そこで本研究では,THI(Test-time Humane-centered Interaction)モジュールを提案する。 THIはマルチモーダル大言語モデル(MLLM)に基づいてユーザクエリを洗練し、最高のマッチング画像とのギャップを減らす。
論文参考訳（メタデータ） (2025-05-21T02:26:17Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文参考訳（メタデータ） (2024-03-15T20:21:31Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions [33.67477398036821]
そこで我々はDyadformerを提案する。Dyadformerは、動的相互作用における個人的および対人的特徴をモデル化する、新しいマルチモーダルマルチオブジェクトトランスフォーマーアーキテクチャである。提案するクロスオブジェクト層は,対象者間のインタラクションを注意的操作により明示的にモデル化することを可能にする。この概念実証アプローチは、双方の相互作用の複数モーダリティと結合モデリングが、より長い時間にわたって、個々の属性を予測するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2021-09-20T12:45:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。