論文の概要: VerificAgent: Integrating Expert Knowledge and Fact-Checked Memory for Robust Domain-Specific Task Planning
- arxiv url: http://arxiv.org/abs/2506.02539v1
- Date: Tue, 03 Jun 2025 07:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.393602
- Title: VerificAgent: Integrating Expert Knowledge and Fact-Checked Memory for Robust Domain-Specific Task Planning
- Title(参考訳): VerificAgent:ロバストドメイン固有のタスク計画のためのエキスパート知識とFact-Checkedメモリの統合
- Authors: Thong Q. Nguyen, Shubhang Desai, Yash Jain, Tanvir Aumi, Vishal Chowdhary,
- Abstract要約: 未確認メモリ蓄積はエージェントのパフォーマンスを低下させる。
本稿では,CUA のメモリ管理を効果的に行う新しいフレームワーク VerificAgent を提案する。
OSWorldの生産性タスクでは、VerificAgentは111.1%の相対的な改善を成功率で達成している。
- 参考スコア(独自算出の注目度): 0.62914438169038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual memory augmentation allows computer-use agents (CUAs) to learn from past interactions and refine their task-solving strategies over time. However, unchecked memory accumulation can introduce spurious or hallucinated "learnings" that degrade agent performance, particularly in domain-specific workflows such as productivity software. We present a novel framework, VerificAgent, that effectively manages memory for CUAs through (1) an expert-curated seed of domain knowledge, (2) iterative, trajectory-based memory refinement during training, and (3) a post-hoc fact-checking pass by human experts to sanitize accumulated memory before deployment. On OSWorld productivity tasks, VerificAgent achieves a 111.1% relative improvement in success rate over baseline CUA without any additional fine-tuning.
- Abstract(参考訳): 連続的なメモリ拡張により、コンピュータ利用エージェント(CUA)は過去のインタラクションから学び、時間とともにタスク解決戦略を洗練できる。
しかし、未チェックのメモリ蓄積は、特に生産性ソフトウェアのようなドメイン固有のワークフローにおいて、エージェントのパフォーマンスを低下させる、刺激的あるいは幻覚的な"学習"をもたらす可能性がある。
本稿では, CUAのメモリを効果的に管理する新しいフレームワークであるVerificAgentについて述べる。(1)ドメイン知識のエキスパートキュレートされたシード,(2)トレーニング中の反復的, トラジェクトリベースのメモリリファインメント,(3)デプロイ前に蓄積したメモリを衛生化するためのポストホックなファクトチェックパスを提案する。
OSWorldの生産性タスクでは、VerificAgentはベースラインCUAよりも111.1%の相対的な改善を実現している。
関連論文リスト
- How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Adaptive Retention & Correction: Test-Time Training for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Towards mental time travel: a hierarchical memory for reinforcement
learning agents [9.808027857786781]
強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
論文 参考訳(メタデータ) (2021-05-28T18:12:28Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。