論文の概要: Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization
- arxiv url: http://arxiv.org/abs/2502.01562v1
- Date: Mon, 03 Feb 2025 17:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:50.724175
- Title: Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization
- Title(参考訳): Memento No More:AIエージェントをHints内部化を通じて複数のタスクをマスタするコーチング
- Authors: Minttu Alakuijala, Ya Gao, Georgy Ananov, Samuel Kaski, Pekka Marttinen, Alexander Ilin, Harri Valpola,
- Abstract要約: 本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
- 参考スコア(独自算出の注目度): 56.674356045200696
- License:
- Abstract: As the general capabilities of artificial intelligence (AI) agents continue to evolve, their ability to learn to master multiple complex tasks through experience remains a key challenge. Current LLM agents, particularly those based on proprietary language models, typically rely on prompts to incorporate knowledge about the target tasks. This approach does not allow the agent to internalize this information and instead relies on ever-expanding prompts to sustain its functionality in diverse scenarios. This resembles a system of notes used by a person affected by anterograde amnesia, the inability to form new memories. In this paper, we propose a novel method to train AI agents to incorporate knowledge and skills for multiple tasks without the need for either cumbersome note systems or prior high-quality demonstration data. Our approach employs an iterative process where the agent collects new experiences, receives corrective feedback from humans in the form of hints, and integrates this feedback into its weights via a context distillation training procedure. We demonstrate the efficacy of our approach by implementing it in a Llama-3-based agent which, after only a few rounds of feedback, outperforms advanced models GPT-4o and DeepSeek-V3 in a taskset requiring correct sequencing of information retrieval, tool use, and question answering.
- Abstract(参考訳): 人工知能(AI)エージェントの一般的な能力が進化し続けるにつれ、経験を通じて複数の複雑なタスクを習得する能力は依然として重要な課題である。
現在のLLMエージェント、特にプロプライエタリ言語モデルに基づくエージェントは、通常、ターゲットタスクに関する知識を組み込むプロンプトに依存している。
このアプローチでは、エージェントがこの情報を内部化することができず、代わりに、さまざまなシナリオで機能を維持するために、絶えず拡張されるプロンプトに依存します。
これは、アンテロオグラード・アムネシアの影響を受け、新しい記憶を形成することができない人によって使われる音符の体系に類似している。
本稿では,複雑なノートシステムや先行の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
提案手法では, エージェントが新たな経験を収集し, ヒントの形で人間からの補正フィードバックを受信し, このフィードバックを, 文脈蒸留訓練によって重みに組み込むという反復的手法を用いている。
我々は,Llama-3をベースとしたエージェントに実装することで,情報検索,ツール使用,質問応答の正しいシークエンシングを必要とするタスクセットにおいて,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 を上回り,本手法の有効性を示す。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z) - Transferring Procedural Knowledge across Commonsense Tasks [17.929737518694616]
本稿では,AIモデルによる手続き的知識を新しい物語課題に透過的に伝達する能力について検討する。
我々は、最先端のモデリングアーキテクチャ、トレーニングレシスタンス、拡張戦略を統合する包括的なフレームワークであるLEAPを設計する。
ドメイン内および外部タスクによる我々の実験は、異なるアーキテクチャの相互作用、トレーニング体制、拡張戦略に関する洞察を明らかにします。
論文 参考訳(メタデータ) (2023-04-26T23:24:50Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - A Proposal for Intelligent Agents with Episodic Memory [0.9236074230806579]
エージェントはエピソード記憶の恩恵を受けるだろうと我々は主張する。
このメモリはエージェントの経験をエージェントが経験を信頼できるようにエンコードする。
本稿では,ANNと標準計算機科学技術を組み合わせて,エピソード記憶の記憶と検索を支援するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-05-07T00:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。