論文の概要: Through the Lens of Character: Resolving Modality-Role Interference in Multimodal Role-Playing Agent
- arxiv url: http://arxiv.org/abs/2605.09443v1
- Date: Sun, 10 May 2026 09:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.254776
- Title: Through the Lens of Character: Resolving Modality-Role Interference in Multimodal Role-Playing Agent
- Title(参考訳): キャラクタレンズを通して:マルチモーダルロールプレイングエージェントにおけるモダリティロール干渉の解消
- Authors: Yihong Tang, Kehai Chen, Xuefeng Bai, Min Zhang,
- Abstract要約: エージェントがキャラクタのレンズを通して世界を知覚できる、トレーニングフリーのキャラクタ・アウェア・ビジュアル・インターベンション(CAVI)フレームワークを紹介した。
CAVI は Modality-Role Interference (MRI) を効果的に緩和し、文字-一貫性を持つマルチモーダル相互作用を大幅に強化する。
- 参考スコア(独自算出の注目度): 36.854102958742445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Multimodal Large Language Models (MLLMs) has expanded Role-Playing Agents (RPAs) into visually grounded environments. However, human vision is inherently subjective and identity-driven, whereas existing MLLMs extract objective, character-agnostic features for general tasks. In RPAs, this generic visual noise overpowers fragile character traits, causing Modality-Role Interference (MRI), where agents struggle to integrate visual grounding and character consistency. To address this, we introduce the training-free Character-Aware Visual Intervention (CAVI) framework, enabling agents to perceive the world through the lens of character. CAVI systematically targets MRI: macroscopically, Character-Guided Token Pruning (CTP) restricts the visual receptive field to role-relevant entities; microscopically, Orthogonal Feature Modulation (OFM) projects tokens onto a character-context subspace to extract aligned facts; and during decoding, Modality-Adaptive Role Steering (MARS) dynamically optimizes steering intensity based on visual reliance. Extensive experiments show CAVI effectively alleviates MRI, significantly enhancing character-consistent multimodal interactions.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩により、ロールプレイングエージェント(RPAs)は視覚的に接地された環境へと拡張された。
しかしながら、人間の視覚は本質的に主観的でアイデンティティ駆動的であるのに対し、既存のMLLMは汎用タスクの目的的、性格に依存しない特徴を抽出する。
RPAでは、この一般的な視覚ノイズが脆弱な性格特性を超過し、エージェントが視覚的グラウンドと文字の一貫性を統合するのに苦労するモダリティ・ロール干渉(MRI)を引き起こす。
これを解決するために、エージェントがキャラクタのレンズを通して世界を知覚できる、トレーニングフリーのキャラクタ・アウェア・ビジュアル・インターベンション(CAVI)フレームワークを導入する。
CAVIは、MRIを系統的に対象としており、マクロ的、キャラクタガイドトケンプルーニング(CTP)は、視覚受容野を役割関連エンティティに制限し、顕微鏡的、直交的特徴変調(OFM)は、一致した事実を抽出するために文字コンテキストサブスペースにトークンを投影し、デコード中は、モダリティ適応的ロールステアリング(MARS)は視覚依存に基づいて、動的にステアリング強度を最適化する。
広汎な実験により、CAVIはMRIを効果的に緩和し、キャラクタリ一貫性を持つマルチモーダル相互作用を著しく強化する。
関連論文リスト
- Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models [43.46006663176283]
本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。
視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。
そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
論文 参考訳(メタデータ) (2025-12-26T10:23:30Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。