論文の概要: Cognitive Duality for Adaptive Web Agents
- arxiv url: http://arxiv.org/abs/2508.05081v1
- Date: Thu, 07 Aug 2025 07:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.735665
- Title: Cognitive Duality for Adaptive Web Agents
- Title(参考訳): 適応型Webエージェントのための認知的双対性
- Authors: Jiarun Liu, Chunhong Zhang, Zheng Hu,
- Abstract要約: 本稿では,システム1とシステム2の認知過程を高速に分解する原理を提案する。
高速直感的な処理とタスクの複雑さに基づいた意図的な推論を適応的に切り替えるモジュール型エージェントアーキテクチャであるCogniWebに,このフレームワークを実装した。
- 参考スコア(独自算出の注目度): 3.0069922338220825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web navigation represents a critical and challenging domain for evaluating artificial general intelligence (AGI), demanding complex decision-making within high-entropy, dynamic environments with combinatorially explosive action spaces. Current approaches to building autonomous web agents either focus on offline imitation learning or online exploration, but rarely integrate both paradigms effectively. Inspired by the dual-process theory of human cognition, we derive a principled decomposition into fast System 1 and slow System 2 cognitive processes. This decomposition provides a unifying perspective on existing web agent methodologies, bridging the gap between offline learning of intuitive reactive behaviors and online acquisition of deliberative planning capabilities. We implement this framework in CogniWeb, a modular agent architecture that adaptively toggles between fast intuitive processing and deliberate reasoning based on task complexity. Our evaluation on WebArena demonstrates that CogniWeb achieves competitive performance (43.96% success rate) while maintaining significantly higher efficiency (75% reduction in token usage).
- Abstract(参考訳): Webナビゲーションは、人工知能(AGI)を評価する上で、重要かつ困難な領域であり、高エントロピー、動的環境における複雑な意思決定を必要とする。
自律的なWebエージェントを構築するための現在のアプローチは、オフラインの模倣学習やオンライン探索に重点を置いているが、両方のパラダイムを効果的に統合することは滅多にない。
人間の認知の二重過程理論に着想を得て,システム1とシステム2の認知過程を高速に分解する原理を導出した。
この分解は、既存のWebエージェントの方法論を統一する視点を提供し、直感的なリアクティブな振る舞いのオフライン学習と、議論的な計画能力のオンライン獲得のギャップを埋める。
高速直感的な処理とタスクの複雑さに基づいた意図的な推論を適応的に切り替えるモジュール型エージェントアーキテクチャであるCogniWebに,このフレームワークを実装した。
WebArenaの評価は、CogniWebが競争性能(43.96%の成功率)を達成しつつ、高い効率(75%のトークン使用率)を維持していることを示す。
関連論文リスト
- Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents [49.88380945341337]
我々は,Webエージェントの能力を,知識コンテンツ学習と認知プロセスの2つの重要な段階に分解する。
知識獲得を容易にするため,14の現実世界のウェブサイトから収集した構造化リソースであるWeb-CogDatasetを構築した。
この基盤の上に構築し、新しい知識駆動型チェーン・オブ・ソート(CoT)推論フレームワークを通じてこれらのプロセスを運用する。
論文 参考訳(メタデータ) (2025-08-03T17:17:52Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - Robust Interaction-Based Relevance Modeling for Online e-Commerce Search [8.499253194630665]
従来のテキストマッチング技術は、検索意図のニュアンスを正確に捉えることができない。
このような欠点に対処するために、ロバストなインタラクションベースのモデリングパラダイムを導入します。
我々の知る限りでは、この手法は大規模なeコマース検索関連性計算のための対話に基づく最初のアプローチである。
論文 参考訳(メタデータ) (2024-06-04T09:24:04Z) - Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response [10.294618771570985]
デュアルプロセス理論(DPT)にインスパイアされた注意に基づく認知アーキテクチャを提案する。
このフレームワークは、高速だが(人間のような)応答と、遅いが最適化されたマシンインテリジェンスの計画能力を統合する。
論文 参考訳(メタデータ) (2024-04-15T15:47:08Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。