論文の概要: Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2601.09382v1
- Date: Wed, 14 Jan 2026 11:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.377859
- Title: Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments
- Title(参考訳): 長期タスク指向エージェント:動的環境におけるアクティブな長期インテントメンテナンス
- Authors: Qinglong Shi, Donghai Wang, Hantao Zhou, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He,
- Abstract要約: 現在の大規模言語モデルエージェントはリアクティブパラダイムの下で動作し、短期セッション内の即時ユーザクエリにのみ応答する。
本稿では,比較的静的なユーザニーズと動的環境とのギャップを埋めることのできる,アクティブなタスク指向エージェントのための新しいインタラクションパラダイムを提案する。
動的環境下で複雑なマルチターンダイアログデータを構築するための高品質なデータ合成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 8.937298475124484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language model agents predominantly operate under a reactive paradigm, responding only to immediate user queries within short-term sessions. This limitation hinders their ability to maintain long-term user's intents and dynamically adapt to evolving external environments. In this paper, we propose a novel interaction paradigm for proactive Task-oriented Agents capable of bridging the gap between relatively static user's needs and a dynamic environment. We formalize proactivity through two key capabilities, (i) Intent-Conditioned Monitoring: The agent autonomously formulates trigger conditions based on dialog history; (ii) Event-Triggered Follow-up: The agent actively engages the user upon detecting useful environmental updates. We introduce a high-quality data synthesis pipeline to construct complex, multi-turn dialog data in a dynamic environment. Furthermore, we attempt to address the lack of evaluation criteria of task-oriented interaction in a dynamic environment by proposing a new benchmark, namely ChronosBench. We evaluated some leading close-source and open-source models at present and revealed their flaws in long-term task-oriented interaction. Furthermore, our fine-tuned model trained using synthetic data for supervised learning achieves a task completion rate of 85.19% for complex tasks including shifts in user intent, outperforming other models under test. And the result validated the effectiveness of our data-driven strategy.
- Abstract(参考訳): 現在の大規模言語モデルエージェントは、主にリアクティブパラダイムの下で動作し、短期セッション内の即時ユーザクエリにのみ応答する。
この制限は、長期的なユーザの意図を維持し、進化する外部環境に動的に適応する能力を妨げます。
本稿では,比較的静的なユーザニーズと動的環境とのギャップを埋めることのできる,アクティブなタスク指向エージェントのための新しいインタラクションパラダイムを提案する。
2つの重要な機能を通じて、プロアクティビティを形式化する。
i)インテント・コンディションド・モニタリング:エージェントは、対話履歴に基づいて、自律的にトリガー条件を定式化する。
(ii)イベントトリガー付きフォローアップ: エージェントは、有用な環境更新を検出する際に、アクティブにユーザをエンゲージする。
動的環境下で複雑なマルチターンダイアログデータを構築するための高品質なデータ合成パイプラインを提案する。
さらに,ChronosBenchという新しいベンチマークを提案し,動的環境におけるタスク指向インタラクションの評価基準の欠如に対処する。
現在、いくつかの主要なオープンソースおよびオープンソースモデルを評価し、長期的なタスク指向インタラクションにおける欠陥を明らかにしている。
さらに、教師付き学習のための合成データを用いて訓練した微調整モデルでは、ユーザ意図の変化を含む複雑なタスクに対して85.19%のタスク完了率を達成し、テスト中の他のモデルよりも優れる。
その結果,データ駆動型戦略の有効性が検証された。
関連論文リスト
- User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale [5.641245411366927]
タスク指向型マルチターン対話を大規模に自動生成するフレームワークを開発した。
我々の生成パイプラインは、任意の状態から生成を開始することができる汎用的なプラグイン・アンド・プレイモジュールとして動作します。
実世界の人間とエージェントの相互作用の多面的要求を反映した高密度データセットを提供する。
論文 参考訳(メタデータ) (2026-01-13T05:14:09Z) - Evaluating Long-Context Reasoning in LLM-Based WebAgents [22.264781808930948]
本稿では,WebAgentsの長期コンテキスト推論能力を評価するためのベンチマークを紹介する。
コンテクストの長さが増加するにつれて劇的なパフォーマンス劣化が観察され、成功率はベースライン条件では40-50%から長期シナリオでは10%以下に低下する。
我々の詳細なエラー分析では、エージェントがループで立ち往生し、元のタスクの目的の追跡が失われることが主な原因であることが判明した。
論文 参考訳(メタデータ) (2025-12-03T22:53:10Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments [39.5949489828609]
大規模言語モデル(LLM)は、意味論的推論を通じて複雑なタスクを階層的に分解する際、顕著な能力を示す。
クローズドループ・エンボダイド・エージェント (CLEA) は,クローズドループタスク管理のための機能的デカップリングを備えた,4つの特別なオープンソース LLM を組み込んだ新しいアーキテクチャである。
我々は、物体探索、操作、探索操作統合タスクのための2つの異種ロボットを用いて、操作可能な物体を実環境で実験する。
論文 参考訳(メタデータ) (2025-03-02T04:50:59Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Generative Prompt Internalization [48.91617280112579]
本稿では,共同学習手法を用いる軽量な手法であるGenerative Prompt Internalization (GenPI)を提案する。
GenPIは、プロンプト入力でモデルの振る舞いを複製するだけでなく、プロンプトの内容も生成する。
エージェントベースのアプリケーションシナリオにおいて,このアプローチが複雑なプロンプトを効果的に内部化することを示す。
論文 参考訳(メタデータ) (2024-11-24T17:32:20Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。