論文の概要: "Stop replacing salt with sugar!'': Towards Intuitive Human-Agent Teaching
- arxiv url: http://arxiv.org/abs/2509.24651v1
- Date: Mon, 29 Sep 2025 12:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.953183
- Title: "Stop replacing salt with sugar!'': Towards Intuitive Human-Agent Teaching
- Title(参考訳): 「塩を砂糖に替えるな!」:直感的人間性教育を目指して
- Authors: Nikolaos Kondylidis, Andrea Rafanelli, Ilaria Tiddi, Annette ten Teije, Frank van Harmelen,
- Abstract要約: 人間は少数の例からすぐに新しい概念を学ぶ。
そこで本研究では,エージェントに実例を提供してタスクの実行方法を教えることができる直感的なヒューマンエージェント教育アーキテクチャを提案する。
本研究では,外部の記号的知識を活用する学習手法とともに,戦略的順序で例を提示することにより,エージェントをより効率的に一般化できることを示す。
- 参考スコア(独自算出の注目度): 7.723229140228534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans quickly learn new concepts from a small number of examples. Replicating this capacity with Artificial Intelligence (AI) systems has proven to be challenging. When it comes to learning subjective tasks-where there is an evident scarcity of data-this capacity needs to be recreated. In this work, we propose an intuitive human-agent teaching architecture in which the human can teach an agent how to perform a task by providing demonstrations, i.e., examples. To have an intuitive interaction, we argue that the agent should be able to learn incrementally from a few single examples. To allow for this, our objective is to broaden the agent's task understanding using domain knowledge. Then, using a learning method to enable the agent to learn efficiently from a limited number of examples. Finally, to optimize how human can select the most representative and less redundant examples to provide the agent with. We apply our proposed method to the subjective task of ingredient substitution, where the agent needs to learn how to substitute ingredients in recipes based on human examples. We replicate human input using the Recipe1MSubs dataset. In our experiments, the agent achieves half its task performance after only 100 examples are provided, compared to the complete training set of 50k examples. We show that by providing examples in strategic order along with a learning method that leverages external symbolic knowledge, the agent can generalize more efficiently.
- Abstract(参考訳): 人間は少数の例からすぐに新しい概念を学ぶ。
この能力を人工知能(AI)システムで再現することは困難であることが証明されている。
主観的なタスクを学ぶことについては、データ不足が明らかで、この容量を再現する必要があります。
本研究では, エージェントがエージェントに対して, デモンストレーション, 例えば実例を提供することで, タスクの実行方法を教えることができる直感的なヒューマンエージェント教育アーキテクチャを提案する。
直感的な相互作用を得るためには、エージェントはいくつかの例から漸進的に学習できるべきだと論じる。
これを可能にするため、ドメイン知識を用いてエージェントのタスク理解を広げることが目的である。
そして、学習方法を用いて、限られた数のサンプルからエージェントが効率的に学習できるようにする。
最後に、エージェントを提供するために、人間が最も代表的で冗長でない例を選択する方法を最適化する。
提案手法は, 原料代替の主観的課題に応用され, ヒトの例に基づくレシピの代替方法を学ぶ必要がある。
我々はRecipe1MSubsデータセットを用いて人間の入力を複製する。
本実験では,50k事例の完全トレーニングセットと比較して,100例のみを提示した後のタスク性能の半分を達成した。
本研究では,外部の記号的知識を活用する学習手法とともに,戦略的順序で例を提示することにより,エージェントをより効率的に一般化できることを示す。
関連論文リスト
- Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution [34.66260172204154]
人間の学習過程を反映したボトムアップエージェントパラダイムを導入する。
エージェントは、試行錯誤メカニズムを探索し、成果を反映し、時間とともにスキルを抽象化することで能力を獲得する。
Slay the Spire and Civilization Vでは、エージェントが生の視覚的入力を通じて知覚し、マウスのアウトプットを介して行動する。
論文 参考訳(メタデータ) (2025-05-23T09:38:55Z) - Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。