論文の概要: HLL: Can Agents Cross Humanity's Last Line of Verification?
- arxiv url: http://arxiv.org/abs/2606.02449v1
- Date: Mon, 01 Jun 2026 16:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.498022
- Title: HLL: Can Agents Cross Humanity's Last Line of Verification?
- Title(参考訳): HLL:エージェントは人間性の最後の検証線を横切ることができるのか?
- Authors: Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu,
- Abstract要約: textbfHumanityのLast Line of Verification (HLL)を導入し、エージェントがこの境界を越えることができるかどうかを評価する。
HLLは多様なCAPTCHA相互作用をカバーし、制御されたリアリズムストレス因子に作用する。
結果は、現在のエージェントがこの人間-置換境界で不安定なままであることを示している。
- 参考スコア(独自算出の注目度): 27.923163104768758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents are increasingly expected to operate interfaces on behalf of users, raising a central deployment question: can they truly substitute for humans in workflows that services deliberately protect against automation? CAPTCHA verification makes this question concrete. It is not merely a visual puzzle, but a human-verification boundary placed before account creation, content access, form submission, and other protected actions. We introduce \textbf{Humanity's Last Line of Verification (HLL)}, a controlled benchmark that uses interactive CAPTCHA verification to evaluate whether agents can cross this boundary through grounded, human-like interaction rather than recognition alone. HLL covers diverse CAPTCHA interactions and exposes agents to controlled realism stressors, including cluttered webpages, harder task variants, and trace-conditioned validation of the solving process. We evaluate eight frontier multimodal agents in a closed-loop GUI environment. The results show that current agents remain brittle at this human-substitution boundary: performance varies sharply across verification types, degrades under realistic interface conditions, and drops further when correct answers must be supported by valid action traces. By exposing gaps in localization, action calibration, state tracking, and process consistency, HLL provides a concrete testbed for measuring how close multimodal agents are to acting as human substitutes in protected real-world workflows. Our code is available at https://github.com/XinhaoS0101/HLL
- Abstract(参考訳): マルチモーダルエージェントは、ユーザに代わってインターフェースを操作することがますます期待されており、集中的なデプロイメントの疑問を提起している。
CAPTCHA検証はこの問題を具体化する。
これは単なる視覚パズルではなく、アカウント作成、コンテンツアクセス、フォームの提出、その他の保護されたアクションの前に置かれる人間による検証境界である。
我々は,対話型CAPTCHA検証を用いて,エージェントが認識のみではなく,接地された人間のようなインタラクションを通じて,この境界を越えることができるかどうかを評価する制御ベンチマークである,textbf{Humanity's Last Line of Verification (HLL)を紹介した。
HLLは多様なCAPTCHAインタラクションをカバーし、乱雑なWebページ、難しいタスクのバリエーション、解決プロセスのトレース条件による検証など、コントロールされたリアリズムストレスターにエージェントを公開している。
閉ループGUI環境における8つのフロンティアマルチモーダルエージェントの評価を行った。
その結果、現在のエージェントはこの人間-置換境界で不安定なままであり、検証の種類によって性能は著しく変化し、現実的なインターフェース条件下では劣化し、正しい答えが有効なアクショントレースによってサポートされなければならない場合、さらに低下することがわかった。
ローカライゼーション、アクションキャリブレーション、状態トラッキング、プロセス一貫性のギャップを明らかにすることで、HLLは、保護された現実世界のワークフローにおいて、マルチモーダルエージェントが人間の代用として振る舞う様子を測定するための具体的なテストベッドを提供する。
私たちのコードはhttps://github.com/XinhaoS0101/HLLで利用可能です。
関連論文リスト
- ROGUE: Misaligned Agent Behavior Arising from Ordinary Computer Use [40.024131729499494]
エージェントは,動作がタスク完了に有効である場合に,安全でない動作をとることによって,良質な設定でも不整合性を示すことができることを示す。
我々は、この障害モードを、人の修正、中断、シャットダウンに対処可能な安全装置である矯正レンズを通して研究する。
我々の研究は、自律エージェントにおける原理的、調整性を重視したアライメント手法の批判的な必要性を強調している。
論文 参考訳(メタデータ) (2026-05-29T20:29:35Z) - IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction [72.51952455865155]
我々は,エゴセントリックなプロシージャビデオに注釈を付けるための混合開始型フレームワークIMPACT-HOIを提案する。
IMPACT-HOIは、このタスクを部分的に指定され、オンセットされたイベント状態の漸進的な解決として捉えている。
9人の参加者によるユーザスタディでは、手動のアノテーションアクションが13.5%減少し、46.67%のイベントマッチレート、確認されたフィールド違反がゼロである。
論文 参考訳(メタデータ) (2026-05-03T01:37:40Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - Towards Unconstrained Human-Object Interaction [55.123145316966635]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、長年続くコンピュータビジョンの問題である。
MLLM(Multimodal Large Language Models)の出現により、対話認識のためのより柔軟なパラダイムを探求することが可能になった。
本研究では,MLLM のレンズによるHOI検出を再検討し,HOI検出に応用する。
論文 参考訳(メタデータ) (2026-04-15T16:39:28Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness [5.119165077129504]
「このエンティティはAIエージェントですか?」は、確立されたソリューションのない新しいエンティティタイプの検証問題です。
ACAPTCHAは、エンティティタイプの検証が必要なサービスに対して、構成可能でインフラストラクチャフリーな受け入れゲートを提供する。
論文 参考訳(メタデータ) (2026-03-07T09:00:04Z) - Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being [0.0]
ソーシャルプラットフォームは何十億もの人々を結び付けているが、そのエンゲージメント優先のアルゴリズムはユーザーに対してではなく、ユーザーに対して機能することが多い。
我々は,プラットフォームロジックとインターフェースの間に位置するユーザが所有する,説明可能な仲介者を提案する。
HL-AIは、プラットフォーム協力を必要とせず、実践的でモーメント間制御を提供する。
論文 参考訳(メタデータ) (2025-11-08T06:22:15Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Evaluating Multimodal Interactive Agents [14.936474798718653]
標準化テストスイート(STS)と呼ばれる新しい評価手法を提案する。
STSでは、実際のヒューマンインタラクションデータから抽出された振る舞いシナリオを使用している。
高速で、制御され、解釈可能で、自然主義的な相互作用を代表している。
論文 参考訳(メタデータ) (2022-05-26T11:18:09Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。