論文の概要: Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
- arxiv url: http://arxiv.org/abs/2604.09574v1
- Date: Tue, 24 Feb 2026 04:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.509818
- Title: Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization
- Title(参考訳): スクリーン上のチューリングテスト:モバイルGUIエージェントの人間化のためのベンチマーク
- Authors: Jiachen Zhu, Lingyu Yang, Rong Shan, Congmin Zheng, Zeyu Zheng, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin,
- Abstract要約: エージェントが人間中心のエコシステムで生き残るためには、彼らは人間化能力を進化させなければならない、と我々は主張する。
この作業は、エージェントがタスクを実行できるかどうかから、人間中心のエコシステム内でそれを実行する方法へとパラダイムをシフトさせる。
- 参考スコア(独自算出の注目度): 40.016387553294685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of autonomous GUI agents has triggered adversarial countermeasures from digital platforms, yet existing research prioritizes utility and robustness over the critical dimension of anti-detection. We argue that for agents to survive in human-centric ecosystems, they must evolve Humanization capabilities. We introduce the ``Turing Test on Screen,'' formally modeling the interaction as a MinMax optimization problem between a detector and an agent aiming to minimize behavioral divergence. We then collect a new high-fidelity dataset of mobile touch dynamics, and conduct our analysis that vanilla LMM-based agents are easily detectable due to unnatural kinematics. Consequently, we establish the Agent Humanization Benchmark (AHB) and detection metrics to quantify the trade-off between imitability and utility. Finally, we propose methods ranging from heuristic noise to data-driven behavioral matching, demonstrating that agents can achieve high imitability theoretically and empirically without sacrificing performance. This work shifts the paradigm from whether an agent can perform a task to how it performs it within a human-centric ecosystem, laying the groundwork for seamless coexistence in adversarial digital environments.
- Abstract(参考訳): 自律型GUIエージェントの台頭は、デジタルプラットフォームからの敵対的対策の引き金となっているが、既存の研究は、アンチ検出の重要な次元よりも実用性と堅牢性を優先している。
エージェントが人間中心のエコシステムで生き残るためには、彼らは人間化能力を進化させなければならない、と我々は主張する。
我々は,「スクリーン上でのTuring Test」を,検知器とエージェント間のMinMax最適化問題として形式的にモデル化し,振る舞いのばらつきを最小限に抑える。
そこで我々は,移動体タッチダイナミックスの高忠実度データセットを新たに収集し,バニラLMMをベースとしたエージェントが不自然なキネマティクスにより容易に検出可能であることを解析した。
その結果,エージェントヒューマニゼーションベンチマーク(AHB)と検出指標を確立し,イミタビリティとユーティリティのトレードオフを定量化する。
最後に, ヒューリスティックノイズからデータ駆動型行動マッチングまで, エージェントが性能を犠牲にすることなく理論的, 経験的に高いイミタビリティを達成できることを実証する手法を提案する。
この研究は、エージェントがタスクを実行することができるかどうかから、人間中心のエコシステム内でそのタスクを実行する方法へとパラダイムをシフトさせ、敵対するデジタル環境においてシームレスに共存するための基礎となる。
関連論文リスト
- Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文 参考訳(メタデータ) (2026-03-30T17:59:02Z) - Human-AI Collaborative Autonomous Experimentation With Proxy Modeling for Comparative Observation [1.05460929917527]
本稿では,人間とAIエージェントの協調作業を通じて,プロキシモデルによるベイズ最適化(px-BO)を提案する。
我々のアプローチは、従来のデータ駆動探索よりも検索を改善するために、ドメインエキスパートのより良いコントロールを提供しました。
論文 参考訳(メタデータ) (2026-03-13T03:45:24Z) - Detecting Perspective Shifts in Multi-agent Systems [0.9095465010382021]
本稿では,TDKPS(Temporal Data Kernel Perspective Space)について紹介する。
ブラックボックス型マルチエージェントシステムにおけるエージェントおよびグループレベルでの行動変化を検出するための新しい仮説テストを提案する。
私たちが知っている限りでは、TDKPSはブラックボックスマルチエージェントシステムにおける振る舞いのダイナミクスを監視するための最初の原則的なフレームワークです。
論文 参考訳(メタデータ) (2025-12-04T17:24:56Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - An Active Inference Model of Mouse Point-and-Click Behaviour [6.861919837733669]
連続状態, 動作, 観察空間を有するAIFエージェントを1次元マウスで指差し, クリックする。
我々は,マウスカーソルの力学を現実的な遅延でモデル化するために,シンプルな動的システムを用いる。
以上の結果から,カーソルが目標を上回っている場合,エージェントが適度なポインティング動作とクリックを生成できることがわかった。
論文 参考訳(メタデータ) (2025-10-16T12:19:38Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。