論文の概要: SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World
- arxiv url: http://arxiv.org/abs/2412.07472v2
- Date: Mon, 23 Dec 2024 13:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 22:39:26.551701
- Title: SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World
- Title(参考訳): SmartAgent: サイバーワールドにおける個人化エージェントの使い勝手
- Authors: Jiaqi Zhang, Chen Gao, Liyuan Zhang, Yong Li, Hongzhi Yin,
- Abstract要約: COUT(Chain-of-User-Thought)は、新しい推論パラダイムである。
我々は、サイバー環境を認識し、パーソナライズされた要求を推論するエージェントフレームワークであるSmartAgentを紹介する。
我々の研究は、まずCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
- 参考スコア(独自算出の注目度): 50.937342998351426
- License:
- Abstract: Recent advances in embodied agents with multimodal perception and reasoning capabilities based on large vision-language models (LVLMs), excel in autonomously interacting either real or cyber worlds, helping people make intelligent decisions in complex environments. However, the current works are normally optimized by golden action trajectories or ideal task-oriented solutions toward a definitive goal. This paradigm considers limited user-oriented factors, which could be the reason for their performance reduction in a wide range of personal assistant applications. To address this, we propose Chain-of-User-Thought (COUT), a novel embodied reasoning paradigm that takes a chain of thought from basic action thinking to explicit and implicit personalized preference thought to incorporate personalized factors into autonomous agent learning. To target COUT, we introduce SmartAgent, an agent framework perceiving cyber environments and reasoning personalized requirements as 1) interacting with GUI to access an item pool, 2) generating users' explicit requirements implied by previous actions, and 3) recommending items to fulfill users' implicit requirements. To demonstrate SmartAgent's capabilities, we also create a brand-new dataset SmartSpot that offers a full-stage personalized action-involved environment. To our best knowledge, our work is the first to formulate the COUT process, serving as a preliminary attempt towards embodied personalized agent learning. Our extensive experiments on SmartSpot illuminate SmartAgent's functionality among a series of embodied and personalized sub-tasks. We will release code and data upon paper notification at https://github.com/tsinghua-fib-lab/SmartAgent.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)に基づくマルチモーダル認識と推論能力を備えたエンボディエージェントの最近の進歩は、現実とサイバーのどちらでも自律的に相互作用し、複雑な環境で知的な決定を下すのに役立つ。
しかしながら、現在の作業は通常、ゴールデンアクショントラジェクトリや、決定的な目標に向けた理想的なタスク指向のソリューションによって最適化されます。
このパラダイムは、幅広いパーソナルアシスタントアプリケーションの性能低下の原因となる、限られたユーザ指向の要素を考慮に入れている。
そこで本研究では、基本的な行動思考から、パーソナライズされた要因を自律的エージェント学習に組み込むことを目的とした、明示的で暗黙的なパーソナライズされた選好へと連鎖する、新しい具体的推論パラダイムであるChain-of-User-Thought(COUT)を提案する。
COUTをターゲットにしたSmartAgentは,サイバー環境を認識し,パーソナライズされた要件を推論するエージェントフレームワークである。
1) GUIと対話してアイテムプールにアクセスする。
2 利用者の事前の行動による明示的な要求を発生させ、
3) ユーザの暗黙の要求を満たすために項目を推奨する。
SmartAgentの能力を実証するために、フルステージのパーソナライズされたアクション関連環境を提供する、新しいデータセットSmartSpotも作成しています。
我々の知る限りでは、私たちの研究は初めてCOUTプロセスを定式化し、パーソナライズされたエージェント学習を具体化するための予備的な試みとして役立ちます。
SmartSpotに関する広範な実験は、SmartAgentの機能に、一連の具体的でパーソナライズされたサブタスクを照らします。
コードとデータはhttps://github.com/tsinghua-fib-lab/SmartAgent.comで公開します。
関連論文リスト
- Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device [2.4100803794273005]
本稿では、複数のユーザ入力を処理し、個人的コンテキストを局所的に理性的に扱うように設計された、オンデバイス・スモールランゲージ・モデル(SLM)フレームワークを提案する。
CAMPHORは階層的アーキテクチャを採用しており、高階推論エージェントは複雑なタスクを分解し、個人のコンテキスト検索、ツールインタラクション、動的プラン生成に責任を持つ専門家エージェントを調整する。
エージェント間でパラメータ共有を実装し、即時圧縮を活用することにより、モデルサイズ、レイテンシ、メモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-12T07:28:10Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。