論文の概要: MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2408.04203v1
- Date: Thu, 8 Aug 2024 03:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 16:40:03.206490
- Title: MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents
- Title(参考訳): MMRole:マルチモーダルロールプレイングエージェントの開発と評価のための総合的なフレームワーク
- Authors: Yanqi Dai, Huanran Hu, Lei Wang, Shengjie Jin, Xu Chen, Zhiwu Lu,
- Abstract要約: MRPA(Multimodal Role-Playing Agents)の概念について紹介する。
本稿では,その開発と評価のための総合的なフレームワークであるMMRoleを提案する。
具体的には,85文字,11K画像,14Kシングル/マルチターン対話からなる大規模かつ高品質なMMRole-Dataを構築した。
- 参考スコア(独自算出の注目度): 18.16651164933436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Role-Playing Agents (RPAs) have garnered increasing attention for their potential to deliver emotional value and facilitate sociological research. However, existing studies are primarily confined to the textual modality, unable to simulate humans' multimodal perceptual capabilities. To bridge this gap, we introduce the concept of Multimodal Role-Playing Agents (MRPAs), and propose a comprehensive framework, MMRole, for their development and evaluation, which comprises a personalized multimodal dataset and a robust evaluation method. Specifically, we construct a large-scale, high-quality dataset, MMRole-Data, consisting of 85 characters, 11K images, and 14K single or multi-turn dialogues. Additionally, we present a robust evaluation method, MMRole-Eval, encompassing eight metrics across three dimensions, where a reward model is trained to score MRPAs with the constructed ground-truth data for comparison. Moreover, we develop the first specialized MRPA, MMRole-Agent. Extensive evaluation results demonstrate the improved performance of MMRole-Agent and highlight the primary challenges in developing MRPAs, emphasizing the need for enhanced multimodal understanding and role-playing consistency. The data, code, and models will be available at https://github.com/YanqiDai/MMRole.
- Abstract(参考訳): 近年,ロールプレイングエージェント (RPAs) は,感情的価値の提供や社会学的研究の促進に注目が集まっている。
しかし、既存の研究は主にテキストのモダリティに限られており、人間のマルチモーダル知覚能力をシミュレートすることはできない。
このギャップを埋めるために、我々はMRPA(Multimodal Role-Playing Agents)の概念を導入し、パーソナライズされたマルチモーダルデータセットとロバストな評価方法を含む開発と評価のための総合的なフレームワークMMRoleを提案する。
具体的には,85文字,11K画像,14Kシングル/マルチターン対話からなる大規模かつ高品質なMMRole-Dataを構築した。
さらに,MMRole-Evalという,3次元にわたる8つの指標を含むロバストな評価手法を提案する。
さらに, MRPA, MMRole-Agentを開発した。
MMRole-Agentの性能向上を実証し,MRPA開発における主な課題を強調し,マルチモーダル理解とロールプレイング整合性の向上の必要性を強調した。
データ、コード、モデルはhttps://github.com/YanqiDai/MMRole.comから入手できる。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。