論文の概要: PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2604.08000v1
- Date: Thu, 09 Apr 2026 09:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.824414
- Title: PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory
- Title(参考訳): PASK: 長期記憶を持つインテント・アウェア・プロアクティブエージェントを目指して
- Authors: Zhifei Xie, Zongzheng Hu, Fangda Ye, Xin Zhang, Haobo Chai, Zihang Liu, Pengcheng Wu, Guibin Zhang, Yue Liao, Xiaobin Hu, Deheng Ye, Chunyan Miao, Shuicheng Yan,
- Abstract要約: 本稿ではまず,プロアクティブAIエージェントのストリーミングパラダイムとしてDD-MM-PAS(Demand Detection, Memory Modeling, Proactive Agent System)を提案する。
私たちはこのパラダイムをPaskでインスタンス化し、DDのためのストリーミングIntentFlowモデル、長期MMのためのハイブリッドメモリ(ワークスペース、ユーザ、グローバル)、PAS赤外線フレームワークを使っています。
また、LatentNeeds-Benchも紹介しています。これは、ユーザ合意のデータから構築され、何千回もの人間の編集によって洗練されています。
- 参考スコア(独自算出の注目度): 83.06095498971682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactivity is a core expectation for AGI. Prior work remains largely confined to laboratory settings, leaving a clear gap in real-world proactive agent: depth, complexity, ambiguity, precision and real-time constraints. We study this setting, where useful intervention requires inferring latent needs from ongoing context and grounding actions in evolving user memory under latency and long-horizon constraints. We first propose DD-MM-PAS (Demand Detection, Memory Modeling, Proactive Agent System) as a general paradigm for streaming proactive AI agent. We instantiate this paradigm in Pask, with streaming IntentFlow model for DD, a hybrid memory (workspace, user, global) for long-term MM, PAS infra framework and introduce how these components form a closed loop. We also introduce LatentNeeds-Bench, a real-world benchmark built from user-consented data and refined through thousands of rounds of human editing. Experiments show that IntentFlow matches leading Gemini3-Flash models under latency constraints, while identifying deeper user intent.
- Abstract(参考訳): 積極性はAGIの中核的な期待である。
これまでの作業は実験室の設定に限られており、深度、複雑さ、曖昧さ、精度、リアルタイムの制約といった、現実世界のプロアクティブエージェントの明確なギャップを残している。
そこで本研究では,待ち時間と長期制約下でのユーザメモリの進化において,現在進行中のコンテキストから潜時要求を推測し,基盤となる動作を行う。
本稿ではまず,プロアクティブAIエージェントのストリーミングパラダイムとしてDD-MM-PAS(Demand Detection, Memory Modeling, Proactive Agent System)を提案する。
私たちはこのパラダイムをPaskでインスタンス化し、DD用のストリーミングIntentFlowモデル、長期MMのためのハイブリッドメモリ(ワークスペース、ユーザ、グローバル)、PAS赤外線フレームワークを導入し、これらのコンポーネントがどのようにクローズドループを形成するかを紹介します。
また、LatentNeeds-Benchも紹介しています。これは、ユーザ合意データから構築され、何千回もの人間の編集によって洗練されています。
実験によると、IntentFlowは遅延制約の下で主要なGemini3-Flashモデルと一致し、より深いユーザインテントを特定する。
関連論文リスト
- PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments [72.02445514666428]
静的な嗜好リコールを超えてペルマの一貫性を評価するためのベンチマークであるPERMAを紹介する。
PerMAは、複数のセッションとドメインにまたがる時間的に順序付けられたインタラクションイベントと、時間とともに好みに関連するクエリで構成されている。
実験により、関連するインタラクションをリンクすることで、高度なメモリシステムはより正確な好みを抽出し、トークン消費を減らすことができることが示された。
論文 参考訳(メタデータ) (2026-03-24T14:04:11Z) - AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents [35.5648433882265]
We present AndroTMem, a diagnosis framework for anchored memory in long-horizon Android GUI agent。
私たちのベンチマークであるAndroTMem-Benchは、34,473のインタラクションステップを持つ1,069のタスクからなる(タスク当たり32.1、最大65)。
本稿では、因果的に連結された中間状態アンカーのコンパクトな集合として相互作用列を表すAnchored State Memory (ASM)を提案する。
論文 参考訳(メタデータ) (2026-03-19T02:45:21Z) - EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use [9.106278853322008]
EventMemAgentは階層型メモリモジュールに基づくアクティブなオンラインビデオエージェントフレームワークである。
短期記憶はイベント境界を検知し、イベントグラニュラー貯水池サンプリングを用いてストリーミングビデオフレームを処理する。
実験によると、EventMemAgentはオンラインビデオのベンチマークで競合する結果を内部化している。
論文 参考訳(メタデータ) (2026-02-17T03:17:24Z) - IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference [22.214499732123173]
IntProは、検索条件付きインテント推論を通じて個々のユーザへの適応を学ぶプロキシエージェントである。
IntProは、効果的なコンテキスト認識推論機能によって、パフォーマンスを強く理解することを示す。
論文 参考訳(メタデータ) (2026-02-10T07:20:58Z) - Embedded AI Companion System on Edge Devices [8.307883066152916]
本稿では,アクティブ位相と非アクティブ位相を交互に行うメモリパラダイムを提案する。
ユーザアクティビティのフェーズでは,既存の記憶やコンテキストに対する軽量な検索を用いて,低レイテンシでリアルタイムな対話を行う。
この設計は、組み込みハードウェアの厳密な制約の下で長期のパーソナライズを維持しながら、レイテンシを最小限にする。
論文 参考訳(メタデータ) (2026-01-13T01:50:06Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - LSTC: Boosting Atomic Action Detection with Long-Short-Term Context [60.60267767456306]
我々は行動認識パイプラインを短期的・長期的依存に分解する。
本設計では, 局所集約分枝を用いて, 密集した情報的短期的手がかりを収集する。
両方のブランチは、コンテキスト固有のアクションを独立して予測し、結果が最後にマージされる。
論文 参考訳(メタデータ) (2021-10-19T10:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。