論文の概要: Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents
- arxiv url: http://arxiv.org/abs/2509.15233v1
- Date: Wed, 17 Sep 2025 02:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.801443
- Title: Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents
- Title(参考訳): Video2Roleplay: ロールプレイングエージェントのためのマルチモーダルデータセットとフレームワーク
- Authors: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo,
- Abstract要約: RPAにビデオモダリティを取り入れた動的ロールプロファイルの概念を導入する。
適応時間サンプリングと動的および静的な役割プロファイル表現を組み合わせた総合的なRPAフレームワークを開発した。
- 参考スコア(独自算出の注目度): 26.08116452596862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corresponding dialogues. Based on this dataset, we develop a comprehensive RPA framework that combines adaptive temporal sampling with both dynamic and static role profile representations. Specifically, the dynamic profile is created by adaptively sampling video frames and feeding them to the LLM in temporal order, while the static profile consists of (1) character dialogues from training videos during fine-tuning, and (2) a summary context from the input video during inference. This joint integration enables RPAs to generate greater responses. Furthermore, we propose a robust evaluation method covering eight metrics. Experimental results demonstrate the effectiveness of our framework, highlighting the importance of dynamic role profiles in developing RPAs.
- Abstract(参考訳): ロールプレイングエージェント (RPAs) は没入的かつ対話的なキャラクターをシミュレートする能力に注目が集まっている。
しかし、既存のアプローチは主に静的な役割プロファイルに焦点を当てており、人間に固有の動的な知覚能力を見下ろしている。
このギャップを埋めるために、ビデオモダリティをRPAに組み込むことにより、動的ロールプロファイルの概念を導入する。
これを支援するために,60kビデオと700k対応対話からなる大規模かつ高品質なデータセットであるRole-playing-Video60kを構築した。
このデータセットに基づいて、適応時間サンプリングと動的および静的な役割プロファイル表現を組み合わせた総合的なRPAフレームワークを開発する。
具体的には、動的プロファイルは、ビデオフレームを適応的にサンプリングし、時間順にLLMに供給することで作成され、静的プロファイルは(1)微調整中のトレーニングビデオからの文字対話と(2)推論中の入力ビデオからの要約コンテキストから構成される。
この統合により、RPAはより大きな応答を生成することができる。
さらに,8つの指標をカバーするロバストな評価手法を提案する。
実験により, RPA開発における動的役割プロファイルの重要性を強調し, 本フレームワークの有効性を実証した。
関連論文リスト
- SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following [31.80357046048002]
ロールプレイングは、大規模言語モデルにとって、多様な指示に従うことが重要である。
既存のロールプレイングデータセットは、主にロールスタイルと知識境界の制御に寄与する。
本稿では,RoleMRCという詳細なロールプレイングと命令フォローのベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:08:37Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。