論文の概要: Phy-Q: A Benchmark for Physical Reasoning
- arxiv url: http://arxiv.org/abs/2108.13696v1
- Date: Tue, 31 Aug 2021 09:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:36:34.492476
- Title: Phy-Q: A Benchmark for Physical Reasoning
- Title(参考訳): Phy-Q:物理推論のベンチマーク
- Authors: Cheng Xue, Vimukthini Pinto, Chathura Gamage, Ekaterina Nikonova, Peng
Zhang, Jochen Renz
- Abstract要約: エージェントが物理的シナリオを推論し、それに応じてアクションを取る必要がある新しいベンチマークを提案する。
幼児期に獲得した身体的知識と、ロボットが現実世界で操作するために必要な能力に触発されて、我々は15の不可欠な物理的シナリオを特定した。
各シナリオに対して、さまざまな異なるタスクテンプレートを作成し、同じシナリオ内のすべてのタスクテンプレートを、1つの特定の物理ルールを使用することで解決できるようにします。
- 参考スコア(独自算出の注目度): 5.45672244836119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are well-versed in reasoning about the behaviors of physical objects
when choosing actions to accomplish tasks, while it remains a major challenge
for AI. To facilitate research addressing this problem, we propose a new
benchmark that requires an agent to reason about physical scenarios and take an
action accordingly. Inspired by the physical knowledge acquired in infancy and
the capabilities required for robots to operate in real-world environments, we
identify 15 essential physical scenarios. For each scenario, we create a wide
variety of distinct task templates, and we ensure all the task templates within
the same scenario can be solved by using one specific physical rule. By having
such a design, we evaluate two distinct levels of generalization, namely the
local generalization and the broad generalization. We conduct an extensive
evaluation with human players, learning agents with varying input types and
architectures, and heuristic agents with different strategies. The benchmark
gives a Phy-Q (physical reasoning quotient) score that reflects the physical
reasoning ability of the agents. Our evaluation shows that 1) all agents fail
to reach human performance, and 2) learning agents, even with good local
generalization ability, struggle to learn the underlying physical reasoning
rules and fail to generalize broadly. We encourage the development of
intelligent agents with broad generalization abilities in physical domains.
- Abstract(参考訳): 人間は、タスクを達成するためのアクションを選択する際に、物理的なオブジェクトの振る舞いについて推論することに精通している。
この問題に対する研究を容易にするために,エージェントが物理的シナリオを判断し,それに応じて行動を起こすための新しいベンチマークを提案する。
幼児期に獲得した身体的知識と実世界環境でのロボットの動作に必要な能力に着想を得て、15の基本的な物理的シナリオを特定した。
各シナリオに対して、さまざまな異なるタスクテンプレートを作成し、同じシナリオ内のすべてのタスクテンプレートを、1つの特定の物理ルールを使用することで解決できるようにします。
このような設計により、局所一般化と広汎化という2つの異なる一般化レベルを評価する。
我々は,人間のプレーヤ,入力タイプやアーキテクチャの異なる学習エージェント,戦略の異なるヒューリスティックエージェントを用いて広範な評価を行う。
このベンチマークは、エージェントの物理的推論能力を反映したPhy-Qスコアを与える。
評価の結果,1)すべてのエージェントは人間のパフォーマンスに到達できず,2)学習エージェントは,局所的な一般化能力に優れていても,基礎となる物理推論規則を学習するのに苦労し,広く一般化できないことがわかった。
我々は、物理領域における広範な一般化能力を持つ知的エージェントの開発を奨励する。
関連論文リスト
- HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Benchmarks for Physical Reasoning AI [28.02418565463541]
既存のベンチマークの概要と、AIシステムの物理的推論能力を測定するためのソリューションアプローチについて説明する。
物理推論タスクにおけるアルゴリズム性能をテストするためのベンチマークを選択する。
提示された物理推論ベンチマークをサブカテゴリにグループ化し、より狭い一般AIエージェントをこれらのグループで最初にテストできるようにします。
論文 参考訳(メタデータ) (2023-12-17T14:24:03Z) - Physical Reasoning and Object Planning for Household Embodied Agents [19.88210708022216]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - NovPhy: A Testbed for Physical Reasoning in Open-world Environments [5.736794130342911]
現実の世界では、私たちはこれまで遭遇したことのない新しい状況に直面しています。
エージェントは、オープンワールドの物理的環境で適切に操作するために、新規性の影響下で機能する能力を持つ必要がある。
我々は,新規性の存在下での物理的シナリオをエージェントが説明する必要がある新しいテストベッド,NovPhyを提案する。
論文 参考訳(メタデータ) (2023-03-03T04:59:03Z) - QKSA: Quantum Knowledge Seeking Agent [0.0]
量子知識探索エージェント(QKSA)の実装に向けたモチベーションとコアテーマについて述べる。
QKSAは、古典的および量子力学のモデル化に使用できる一般的な強化学習エージェントである。
論文 参考訳(メタデータ) (2021-07-03T13:07:58Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Hi-Phy: A Benchmark for Hierarchical Physical Reasoning [5.854222601444695]
物理的オブジェクトの振る舞いに関する推論は、物理世界で動くエージェントの重要な能力である。
身体的推論能力のテストを可能にする物理推論のための新しいベンチマークを提案する。
本ベンチマークでは,Angry Birdsで生成した物理推論タスクを用いて,この階層に従って性能を検証した。
論文 参考訳(メタデータ) (2021-06-17T17:46:50Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。