論文の概要: Thinking agents for zero-shot generalization to qualitatively novel tasks
- arxiv url: http://arxiv.org/abs/2503.19815v1
- Date: Tue, 25 Mar 2025 16:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:48.927440
- Title: Thinking agents for zero-shot generalization to qualitatively novel tasks
- Title(参考訳): ゼロショット一般化のための思考エージェントの質的新しい課題への応用
- Authors: Thomas Miconi, Kevin McKee, Yicong Zheng, Jed McCaleb,
- Abstract要約: 本研究では,心理シミュレーション能力を活用するために,世界モデルを持つエージェントを訓練する手法を提案する。
結果のエージェントは、代替シナリオをシミュレートし、その結果の情報を実際の環境での振る舞いをガイドするために使用した。
- 参考スコア(独自算出の注目度): 0.974963895316339
- License:
- Abstract: Intelligent organisms can solve truly novel problems which they have never encountered before, either in their lifetime or their evolution. An important component of this capacity is the ability to ``think'', that is, to mentally manipulate objects, concepts and behaviors in order to plan and evaluate possible solutions to novel problems, even without environment interaction. To generate problems that are truly qualitatively novel, while still solvable zero-shot (by mental simulation), we use the combinatorial nature of environments: we train the agent while withholding a specific combination of the environment's elements. The novel test task, based on this combination, is thus guaranteed to be truly novel, while still mentally simulable since the agent has been exposed to each individual element (and their pairwise interactions) during training. We propose a method to train agents endowed with world models to make use their mental simulation abilities, by selecting tasks based on the difference between the agent's pre-thinking and post-thinking performance. When tested on the novel, withheld problem, the resulting agent successfully simulated alternative scenarios and used the resulting information to guide its behavior in the actual environment, solving the novel task in a single real-environment trial (zero-shot).
- Abstract(参考訳): 知能のある生物は、これまで遭遇したことのない真に新しい問題を、生前でも進化時でも解決することができる。
この能力の重要な構成要素は、環境の相互作用なしにも、新しい問題の解決策を計画し、評価するために、オブジェクト、概念、振る舞いを精神的に操作する「思考」能力である。
リアルに定性的に新しい問題を生成するためには、(精神的シミュレーションによって)まだ解けるゼロショットを保ちながら、環境の組合せの性質を用いて、環境要素の特定の組み合わせを保ちながらエージェントを訓練する。
この組み合わせに基づいて、新しいテストタスクは真に新しいものであることが保証されるが、エージェントが訓練中に個々の要素(およびそれらのペアの相互作用)に暴露されたため、精神的にシミュレート可能である。
本研究では, エージェントの事前思考とポスト思考のパフォーマンスの違いに基づいて, タスクを選択することで, 心理シミュレーション能力を活用した世界モデルを持つエージェントを訓練する手法を提案する。
小説で試すと、解決したエージェントは、代替シナリオをシミュレートし、その結果の情報を実際の環境での振る舞いをガイドし、新しいタスクを1つの実環境試験(ゼロショット)で解決した。
関連論文リスト
- Metacognition for Unknown Situations and Environments (MUSE) [3.2020845462590697]
未知の状況と環境(MUSE)フレームワークのメタ認知を提案する。
MUSEはメタ認知プロセス、特に自己認識と自己制御を自律エージェントに統合する。
エージェントは自己認識と自己制御の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-20T18:41:03Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - NovPhy: A Testbed for Physical Reasoning in Open-world Environments [5.736794130342911]
現実の世界では、私たちはこれまで遭遇したことのない新しい状況に直面しています。
エージェントは、オープンワールドの物理的環境で適切に操作するために、新規性の影響下で機能する能力を持つ必要がある。
我々は,新規性の存在下での物理的シナリオをエージェントが説明する必要がある新しいテストベッド,NovPhyを提案する。
論文 参考訳(メタデータ) (2023-03-03T04:59:03Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Transforming task representations to perform novel tasks [12.008469282323492]
知性の重要な側面は、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
本稿では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T23:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。