論文の概要: UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind
- arxiv url: http://arxiv.org/abs/2605.27721v1
- Date: Tue, 26 May 2026 21:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.565923
- Title: UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind
- Title(参考訳): UserHarness: より強力なエージェント理論に対するユーザマインドのハーネス
- Authors: Cheng Qian, Jiayu Liu, Heng Ji,
- Abstract要約: UserHarnessは、明示的なユーザ・ミンドの再構築として、理論・オブ・ミンド(ToM)の推論を再設計するシンプルなフレームワークである。
ユーザーの精神状態、外部環境との関係、およびそれに続く行為を分解し、エージェントがユーザーの観察、信念、意図、行動を追跡することを可能にする。
- 参考スコア(独自算出の注目度): 51.47914365631888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding what a user believes and intends is central to building effective agent assistants. This ability is often evaluated through Theory-of-Mind (ToM) tasks, where success requires reasoning from the user's perspective. However, many existing approaches address ToM with complex pipelines that model behavior indirectly, without explicitly reconstructing the user's mental state. This misses the core structure of the problem: users act based on their beliefs, which are updated through observations of the environment; beliefs and intentions jointly determine actions, which in turn change the environment; and social reasoning often requires nested beliefs about what others believe or intend. We propose UserHarness, a simple framework that reframes ToM reasoning as explicit user-mind reconstruction. UserHarness decomposes the user's mental state, its relation to the external environment, and the actions that follow from it, enabling agents to track what the user observes, believes, intends, and does. Across five benchmarks, UserHarness reaches up to 95.94% macro accuracy, improving over existing inference methods by more than 15% relative and over the strongest prompt-only harness by about 20% relative. These results suggest that robust user understanding requires reasoning from the roots of the user's mind, positioning user harnessing as a promising foundation for more adaptive future assistants.
- Abstract(参考訳): ユーザが何を信じ、意図しているかを理解することは、効果的なエージェントアシスタントを構築することの中心である。
この能力は、ユーザの視点からの推論を必要とするToM(Theory-of-Mind)タスクを通じて評価されることが多い。
しかし、多くの既存のアプローチは、ユーザのメンタル状態を明示的に再構築することなく、間接的に振る舞いをモデル化する複雑なパイプラインでToMに対処している。
ユーザーは環境の観察を通して更新される信念に基づいて行動し、信念と意図は共同で行動を決定し、環境を変える。
We propose UserHarness, a simple framework that reframes ToM reasoning as explicit user-mind reconstruction。
UserHarnessは、ユーザのメンタル状態、外部環境との関係、およびそれに続くアクションを分解し、エージェントがユーザの観察、信頼、意図、行動を追跡することを可能にする。
5つのベンチマークで、UserHarnessは95.94%のマクロ精度に達し、既存の推論手法を15%以上改善し、最も強力なプロンプトのみのハーネスを約20%改善した。
これらの結果から,ユーザ理解にはユーザの心の根源からの推論が必要であることが示唆された。
関連論文リスト
- VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文 参考訳(メタデータ) (2026-05-26T15:07:38Z) - SAGER: Self-Evolving User Policy Skills for Recommendation Agent [18.821028533463824]
大規模言語モデル(LLM)ベースのレコメンデーションエージェントは、ユーザごとのセマンティックメモリの進化を通じて知っていることをパーソナライズする。
本稿では,SAGERを提案する。SAGERは,ユーザが専用のポリシースキルを身に付けるための,最初のレコメンデーションエージェントフレームワークである。
4つの公開ベンチマークの実験では、SAGERが最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-04-16T13:06:49Z) - Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - Trust-Oriented Adaptive Guardrails for Large Language Models [9.719986610417441]
ガードレールは、有害または有害な応答を抑えることで、大きな言語モデル(LLM)が人間の価値と整合することを保証するように設計されている。
既存のガードレールには、さまざまなユーザグループのニーズを満たすための、十分に確立された方法論が欠如している。
ユーザ信頼度に基づいて,機密コンテンツへの動的アクセスを適度に行うための適応ガードレール機構を導入する。
論文 参考訳(メタデータ) (2024-08-16T18:07:48Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。