論文の概要: Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance
- arxiv url: http://arxiv.org/abs/2507.17131v1
- Date: Wed, 23 Jul 2025 02:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.824951
- Title: Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance
- Title(参考訳): 自己改善型エージェントの開発 : 対人指導による学習
- Authors: Yufei He, Ruoyu Li, Alex Chen, Yue Liu, Yulin Chen, Yuan Sui, Cheng Chen, Yi Zhu, Luca Luo, Frank Yang, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。
テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。
ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
- 参考スコア(独自算出の注目度): 39.55117998366751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents often struggle in environments where rules and required domain knowledge frequently change, such as regulatory compliance and user risk screening. Current approaches, like offline fine-tuning and standard prompting, are insufficient because they cannot effectively adapt to new knowledge during actual operation. To address this limitation, we propose the Adaptive Reflective Interactive Agent (ARIA), an LLM agent framework designed specifically to continuously learn updated domain knowledge at test time. ARIA assesses its own uncertainty through structured self-dialogue, proactively identifying knowledge gaps and requesting targeted explanations or corrections from human experts. It then systematically updates an internal, timestamped knowledge repository with provided human guidance, detecting and resolving conflicting or outdated knowledge through comparisons and clarification queries. We evaluate ARIA on the realistic customer due diligence name screening task on TikTok Pay, alongside publicly available dynamic knowledge tasks. Results demonstrate significant improvements in adaptability and accuracy compared to baselines using standard offline fine-tuning and existing self-improving agents. ARIA is deployed within TikTok Pay serving over 150 million monthly active users, confirming its practicality and effectiveness for operational use in rapidly evolving environments.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、規則や要求されるドメイン知識が頻繁に変化する環境、例えば規制コンプライアンスやユーザリスクのスクリーニングにおいて、しばしば苦労する。
オフライン微調整や標準プロンプトのような現在のアプローチは、実際の運用中に新しい知識に効果的に適応できないため、不十分である。
この制限に対処するために,テスト時に更新されたドメイン知識を継続的に学習するLLMエージェントフレームワークであるAdaptive Reflective Interactive Agent (ARIA)を提案する。
ARIAは、構造化された自己対話を通じて自身の不確実性を評価し、知識ギャップを積極的に識別し、人間の専門家から対象とする説明や修正を要求する。
次に、内部のタイムスタンプ付き知識リポジトリを体系的に更新し、人間によるガイダンスを提供し、比較と明確化クエリを通じて矛盾する知識や時代遅れの知識を検出し、解決する。
我々は、TikTok Pay上の現実的な顧客デューディリジェンス名スクリーニングタスクと、利用可能な動的知識タスクについてARIAを評価した。
その結果、標準のオフライン微調整エージェントと既存の自己改善エージェントを用いたベースラインと比較して、適応性と精度が大幅に向上した。
ARIAはTikTok Pay内に1億5000万の月間アクティブユーザを配置し、急速に進化する環境における運用上の実用性と有効性を確認している。
関連論文リスト
- Knowledge Augmented Finetuning Matters in both RAG and Agent Based Dialog Systems [18.83666259380603]
大規模言語モデル (LLM) はダイアログシステムに適用されている。
LLMは知識集約的なシナリオでエラーを起こしやすい。
検索拡張生成(RAG)とエージェントに基づくアプローチが現われ,実際の精度が向上した。
論文 参考訳(メタデータ) (2025-06-28T11:26:31Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。
我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文 参考訳(メタデータ) (2025-04-04T16:03:38Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery [5.680463564655267]
ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-11-24T04:12:50Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Transferring Domain Knowledge with an Adviser in Continuous Tasks [0.0]
強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。
我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
論文 参考訳(メタデータ) (2021-02-16T09:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。