論文の概要: ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions
- arxiv url: http://arxiv.org/abs/2505.14668v1
- Date: Tue, 20 May 2025 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.66128
- Title: ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions
- Title(参考訳): ContextAgent: オープンワールド知覚による文脈認識型プロアクティブLDMエージェント
- Authors: Bufang Yang, Lilin Xu, Liekang Zeng, Kaiwei Liu, Siyang Jiang, Wenrui Lu, Hongkai Chen, Xiaofan Jiang, Guoliang Xing, Zhenyu Yan,
- Abstract要約: 最初のコンテキスト対応プロアクティブエージェントであるContextAgentを紹介する。
ContextAgentは、ウェアラブル上の大量の感覚知覚から、まず多次元のコンテキストを抽出する。
次に、履歴データからの知覚コンテキストとペルソナコンテキストを活用して、積極的なサービスの必要性を予測する。
- 参考スコア(独自算出の注目度): 4.664491157185575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have propelled intelligent agents from reactive responses to proactive support. While promising, existing proactive agents either rely exclusively on observations from enclosed environments (e.g., desktop UIs) with direct LLM inference or employ rule-based proactive notifications, leading to suboptimal user intent understanding and limited functionality for proactive service. In this paper, we introduce ContextAgent, the first context-aware proactive agent that incorporates extensive sensory contexts to enhance the proactive capabilities of LLM agents. ContextAgent first extracts multi-dimensional contexts from massive sensory perceptions on wearables (e.g., video and audio) to understand user intentions. ContextAgent then leverages the sensory contexts and the persona contexts from historical data to predict the necessity for proactive services. When proactive assistance is needed, ContextAgent further automatically calls the necessary tools to assist users unobtrusively. To evaluate this new task, we curate ContextAgentBench, the first benchmark for evaluating context-aware proactive LLM agents, covering 1,000 samples across nine daily scenarios and twenty tools. Experiments on ContextAgentBench show that ContextAgent outperforms baselines by achieving up to 8.5% and 6.0% higher accuracy in proactive predictions and tool calling, respectively. We hope our research can inspire the development of more advanced, human-centric, proactive AI assistants.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、知的エージェントを反応反応から積極的な支援へと駆り立てている。
有望な一方で、既存のプロアクティブエージェントは、直接LLM推論による囲い込み環境(デスクトップUIなど)からの観察にのみ依存するか、ルールベースのプロアクティブ通知を採用して、サブ最適ユーザ意図の理解とプロアクティブサービスの限定的な機能に繋がる。
本稿では,LLMエージェントのプロアクティブ能力を高めるために,広義の感覚コンテキストを組み込んだ最初のコンテキスト認識プロアクティブエージェントであるContextAgentを紹介する。
ContextAgentはまず、ユーザの意図を理解するために、ウェアラブル(例えばビデオやオーディオ)上の大量の知覚的知覚から多次元のコンテキストを抽出する。
ContextAgentは、履歴データから知覚コンテキストとペルソナコンテキストを活用して、アクティブなサービスの必要性を予測する。
アクティブなアシストが必要な場合、ContextAgentはユーザーを支援するために必要なツールを自動的に呼び出す。
この新しいタスクを評価するために、ContextAgentBenchをキュレートする。ContextAgentBenchは、コンテキスト対応のプロアクティブなLDMエージェントを評価するための最初のベンチマークで、9つのシナリオと20のツールにわたる1,000のサンプルをカバーしている。
ContextAgentBenchの実験は、ContextAgentがそれぞれ、前向きな予測とツール呼び出しにおいて最大8.5%と6.0%の精度でベースラインを上回っていることを示している。
私たちの研究が、より先進的で人間中心の、プロアクティブなAIアシスタントの開発に刺激を与えてくれることを願っています。
関連論文リスト
- AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。