論文の概要: ScienceWorld: Is your Agent Smarter than a 5th Grader?
- arxiv url: http://arxiv.org/abs/2203.07540v1
- Date: Mon, 14 Mar 2022 22:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 10:39:31.689744
- Title: ScienceWorld: Is your Agent Smarter than a 5th Grader?
- Title(参考訳): scienceworld:あなたのエージェントは5年生より賢いですか?
- Authors: Ruoyao Wang, Peter Jansen, Marc-Alexandre C\^ot\'e, Prithviraj
Ammanabrolu
- Abstract要約: 本稿では,エージェントの科学的推論能力をテストするための新しいベンチマーク,ScienceWorldを提案する。
現在の最先端モデルは、新しい文脈で学んだ科学概念を推論したり説明できない。
- 参考スコア(独自算出の注目度): 12.066880938687154
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a new benchmark, ScienceWorld, to test agents' scientific
reasoning abilities in a new interactive text environment at the level of a
standard elementary school science curriculum. Despite the recent
transformer-based progress seen in adjacent fields such as question-answering,
scientific text processing, and the wider area of natural language processing,
we find that current state-of-the-art models are unable to reason about or
explain learned science concepts in novel contexts. For instance, models can
easily answer what the conductivity of a previously seen material is but
struggle when asked how they would conduct an experiment in a grounded,
interactive environment to find the conductivity of an unknown material. This
begs the question of whether current models are simply retrieving answers by
way of seeing a large number of similar input examples or if they have learned
to reason about concepts in a reusable manner. We hypothesize that agents need
to be grounded in interactive environments to achieve such reasoning
capabilities. Our experiments provide empirical evidence supporting this
hypothesis -- showing that a 1.5 million parameter agent trained interactively
for 100k steps outperforms a 11 billion parameter model statically trained for
scientific question-answering and reasoning via millions of expert
demonstrations.
- Abstract(参考訳): 本稿では,小学校理科カリキュラムのレベルにおいて,対話型テキスト環境におけるエージェントの科学的推論能力をテストするための新しいベンチマーク,scienceworldを提案する。
近年, 質問応答や科学的テキスト処理, 自然言語処理など, 隣接する分野におけるトランスフォーマーの進歩にもかかわらず, 現状のモデルでは, 新たな文脈における学習科学概念の推論や説明ができないことがわかった。
例えば、モデルは、以前に見られた物質の導電性について簡単に答えられるが、未知の物質の導電性を見つけるために、接地したインタラクティブな環境で実験をする方法を尋ねられると、苦労する。
これは、現在のモデルが、多くの類似した入力例を見ることによって、単に答えを検索しているのか、それとも再利用可能な方法で概念を推論することを学んだのか、という疑問を提起する。
このような推論能力を達成するためには,エージェントをインタラクティブな環境に置く必要がある,と仮定する。
私たちの実験は、この仮説を裏付ける実証的な証拠を提供し、150万のパラメーターエージェントが100万ステップでインタラクティブにトレーニングされ、科学的な質問に対する回答と推論のために訓練された100億のパラメーターモデルを上回っていることを示す。
関連論文リスト
- Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。
科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。
そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文 参考訳(メタデータ) (2024-10-09T15:57:50Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Understanding Your Agent: Leveraging Large Language Models for Behavior
Explanation [7.647395374489533]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。
提案手法は,人間ドメインの専門家が作成したものと同じくらい役立つ説明を生成する。
論文 参考訳(メタデータ) (2023-11-29T20:16:23Z) - Towards Understanding How Machines Can Learn Causal Overhypotheses [4.540122114051773]
子供たちは様々な因果推論と学習に精通している。
現在の機械学習アルゴリズムにおける重要な課題の1つは、因果仮説のモデリングと理解である。
既存の技術の評価を可能にするフレキシブルな環境である新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-06-16T17:54:16Z) - Observing Interventions: A logic for thinking about experiments [62.997667081978825]
本稿では,実験から学ぶ論理への第一歩について述べる。
我々のアプローチにとって重要なことは、介入の概念が(現実的または仮説的な)実験の形式的表現として使用できるという考えである。
提案された全ての論理系に対して、健全で完全な公理化を提供する。
論文 参考訳(メタデータ) (2021-11-25T09:26:45Z) - OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。
我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。
その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文 参考訳(メタデータ) (2021-10-13T17:48:23Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。
我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文 参考訳(メタデータ) (2021-06-07T14:06:20Z) - Learning Transferable Push Manipulation Skills in Novel Contexts [3.1981440103815717]
我々は、ロボットが新しい状況であっても物理的相互作用の結果を予測することができるプッシュインタラクションのためのパラメトリック内部モデルを学ぶ。
様々な条件下で合計24,000回のプッシュで2つのオブジェクトをトレーニングし、合計14,400回のプッシュ結果で6つのオブジェクトをテストします。
その結果,偏りや偏りのない予測器は,慎重に調整された物理シミュレータの結果と一致して,確実に予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-07-29T11:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。