論文の概要: MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
- arxiv url: http://arxiv.org/abs/2603.09643v1
- Date: Tue, 10 Mar 2026 13:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.331022
- Title: MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
- Title(参考訳): MM-tau-p$^2$:デュアルコントロル設定におけるロバストマルチモーダルエージェント評価のためのペルソナ適応プロンプト
- Authors: Anupam Purwar, Aditya Choudhary,
- Abstract要約: ユーザエクスペリエンス管理ドメインでは、エージェントがユーザ個性について学ぶと、エージェントの振る舞いが進化する。
マルチモーダルエージェントのロバスト性を評価するために,MM-tau-p$2$ベンチマークを提案する。
全体として、MM-tau-p$2$は、我々の以前の作業 FOCAL に基づいて構築され、マルチモーダルエージェントを評価するための総合的な方法を提供する。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current evaluation frameworks and benchmarks for LLM powered agents focus on text chat driven agents, these frameworks do not expose the persona of user to the agent, thus operating in a user agnostic environment. Importantly, in customer experience management domain, the agent's behaviour evolves as the agent learns about user personality. With proliferation of real time TTS and multi-modal language models, LLM based agents are gradually going to become multi-modal. Towards this, we propose the MM-tau-p$^2$ benchmark with metrics for evaluating the robustness of multi-modal agents in dual control setting with and without persona adaption of user, while also taking user inputs in the planning process to resolve a user query. In particular, our work shows that even with state of-the-art frontier LLMs like GPT-5, GPT 4.1, there are additional considerations measured using metrics viz. multi-modal robustness, turn overhead while introducing multi-modality into LLM based agents. Overall, MM-tau-p$^2$ builds on our prior work FOCAL and provides a holistic way of evaluating multi-modal agents in an automated way by introducing 12 novel metrics. We also provide estimates of these metrics on the telecom and retail domains by using the LLM-as-judge approach using carefully crafted prompts with well defined rubrics for evaluating each conversation.
- Abstract(参考訳): LLMを利用したエージェントの現在の評価フレームワークとベンチマークは、テキストチャット駆動エージェントに焦点を当てており、これらのフレームワークは、ユーザのペルソナをエージェントに公開せず、ユーザに依存しない環境で動作している。
重要なのは、顧客体験管理領域において、エージェントがユーザ個性について学習するにつれて、エージェントの行動が進化することである。
リアルタイムTSやマルチモーダル言語モデルの普及に伴い、LSMベースのエージェントは徐々にマルチモーダルになりつつある。
そこで本稿では,MM-tau-p$^2$ベンチマーク(MM-tau-p$^2$ベンチマーク)を提案する。
特に, GPT-5 や GPT 4.1 のような最先端のフロンティア LLM においても, マルチモーダルロバスト性, オーバーヘッド, マルチモーダル性を LLM ベースのエージェントに導入した上で, 測定値を用いた検討が加えられている。
全体として、MM-tau-p$^2$は、我々の以前の作業 FOCAL に基づいて構築され、12の新しいメトリクスを導入して、マルチモーダルエージェントを自動評価する方法を提供する。
LLM-as-judge アプローチを用いて,各会話の評価に,適切に定義されたルーリックを用いて,これらのメトリクスをテレコムおよび小売ドメイン上で推定する。
関連論文リスト
- Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence [1.8357468337756873]
顧客サポートにおけるポリシー対応エージェントの評価を目的としたベンチマークであるJourneyBenchを紹介する。
静的プロンプトエージェント(SPA)と動的プロンプトエージェント(DPA)の2つのエージェント設計を用いて,複数の最先端エージェント設計を評価する。
DPAは,GPT-4o-miniのような小型モデルでも,GPT-4o-miniのようなより有能なモデルよりも優れることを示す。
論文 参考訳(メタデータ) (2026-01-02T07:21:23Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems [6.8738526619759535]
タスク指向対話(TOD)モデルを評価するために、オフラインデータセットが使用されている。
コンテキスト対応のユーザエージェントは、人間の会話の多様性と予測不能をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-15T06:05:45Z) - Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。
動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。
次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文 参考訳(メタデータ) (2024-08-19T04:44:32Z) - RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
LLMエージェントに与えられたプロンプトのステップバイステップ命令を最適化するために、段階的な降下を行う新しい方法、textscRePromptを提案する。
中間的なフィードバックを活用することで、 textscRePromptは最終的なソリューションチェッカーを必要とせずにプロンプトを最適化できる。
論文 参考訳(メタデータ) (2024-06-17T01:23:11Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。