論文の概要: Hi-Phy: A Benchmark for Hierarchical Physical Reasoning
- arxiv url: http://arxiv.org/abs/2106.09692v1
- Date: Thu, 17 Jun 2021 17:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:08:41.893209
- Title: Hi-Phy: A Benchmark for Hierarchical Physical Reasoning
- Title(参考訳): Hi-Phy:階層的物理推論のためのベンチマーク
- Authors: Cheng Xue, Vimukthini Pinto, Chathura Gamage, Peng Zhang and Jochen
Renz
- Abstract要約: 物理的オブジェクトの振る舞いに関する推論は、物理世界で動くエージェントの重要な能力である。
身体的推論能力のテストを可能にする物理推論のための新しいベンチマークを提案する。
本ベンチマークでは,Angry Birdsで生成した物理推論タスクを用いて,この階層に従って性能を検証した。
- 参考スコア(独自算出の注目度): 5.854222601444695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning about the behaviour of physical objects is a key capability of
agents operating in physical worlds. Humans are very experienced in physical
reasoning while it remains a major challenge for AI. To facilitate research
addressing this problem, several benchmarks have been proposed recently.
However, these benchmarks do not enable us to measure an agent's granular
physical reasoning capabilities when solving a complex reasoning task. In this
paper, we propose a new benchmark for physical reasoning that allows us to test
individual physical reasoning capabilities. Inspired by how humans acquire
these capabilities, we propose a general hierarchy of physical reasoning
capabilities with increasing complexity. Our benchmark tests capabilities
according to this hierarchy through generated physical reasoning tasks in the
video game Angry Birds. This benchmark enables us to conduct a comprehensive
agent evaluation by measuring the agent's granular physical reasoning
capabilities. We conduct an evaluation with human players, learning agents, and
heuristic agents and determine their capabilities. Our evaluation shows that
learning agents, with good local generalization ability, still struggle to
learn the underlying physical reasoning capabilities and perform worse than
current state-of-the-art heuristic agents and humans. We believe that this
benchmark will encourage researchers to develop intelligent agents with
advanced, human-like physical reasoning capabilities. URL:
https://github.com/Cheng-Xue/Hi-Phy
- Abstract(参考訳): 物理的オブジェクトの振る舞いに関する推論は、物理世界で動くエージェントの重要な能力である。
人間は身体的推論を非常に経験していますが、それでもAIにとって大きな課題です。
この問題に対処する研究を容易にするために、最近いくつかのベンチマークが提案されている。
しかし、これらのベンチマークでは、複雑な推論タスクを解決する際にエージェントの粒度の物理推論能力を測定することはできない。
本稿では,身体的推論能力のテストを可能にする物理推論のための新しいベンチマークを提案する。
人間の能力の獲得方法に着想を得て,複雑性を増す物理推論能力の一般的な階層を提案する。
ベンチマークテストでは,ゲームangry birdsで生成した物理的推論タスクを通じて,この階層に従って機能をテストする。
このベンチマークにより,エージェントの粒度の物理的推論能力を測定することで,包括的なエージェント評価を行うことができる。
我々は,人間,学習エージェント,ヒューリスティックエージェントを用いて評価を行い,その能力を決定する。
評価の結果, 学習エージェントは, 局所的一般化能力に優れ, 基礎的な理学能力の習得に苦慮しており, 現状のヒューリスティックエージェントや人間よりもパフォーマンスが悪くなっていることがわかった。
このベンチマークは、高度な人間に似た物理的推論能力を持つインテリジェントエージェントの開発を研究者に促すものだと考えています。
URL: https://github.com/Cheng-Xue/Hi-Phy
関連論文リスト
- Benchmarks for Physical Reasoning AI [28.02418565463541]
既存のベンチマークの概要と、AIシステムの物理的推論能力を測定するためのソリューションアプローチについて説明する。
物理推論タスクにおけるアルゴリズム性能をテストするためのベンチマークを選択する。
提示された物理推論ベンチマークをサブカテゴリにグループ化し、より狭い一般AIエージェントをこれらのグループで最初にテストできるようにします。
論文 参考訳(メタデータ) (2023-12-17T14:24:03Z) - NovPhy: A Testbed for Physical Reasoning in Open-world Environments [5.736794130342911]
現実の世界では、私たちはこれまで遭遇したことのない新しい状況に直面しています。
エージェントは、オープンワールドの物理的環境で適切に操作するために、新規性の影響下で機能する能力を持つ必要がある。
我々は,新規性の存在下での物理的シナリオをエージェントが説明する必要がある新しいテストベッド,NovPhyを提案する。
論文 参考訳(メタデータ) (2023-03-03T04:59:03Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - On some Foundational Aspects of Human-Centered Artificial Intelligence [52.03866242565846]
人間中心人工知能(Human Centered Artificial Intelligence)の意味については明確な定義はない。
本稿では,AIコンポーネントを備えた物理・ソフトウェア計算エージェントを指すHCAIエージェントについて紹介する。
HCAIエージェントの概念は、そのコンポーネントや機能とともに、人間中心のAIに関する技術的および非技術的議論を橋渡しする手段であると考えています。
論文 参考訳(メタデータ) (2021-12-29T09:58:59Z) - Phy-Q: A Benchmark for Physical Reasoning [5.45672244836119]
エージェントが物理的シナリオを推論し、それに応じてアクションを取る必要がある新しいベンチマークを提案する。
幼児期に獲得した身体的知識と、ロボットが現実世界で操作するために必要な能力に触発されて、我々は15の不可欠な物理的シナリオを特定した。
各シナリオに対して、さまざまな異なるタスクテンプレートを作成し、同じシナリオ内のすべてのタスクテンプレートを、1つの特定の物理ルールを使用することで解決できるようにします。
論文 参考訳(メタデータ) (2021-08-31T09:11:27Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Thinking Fast and Slow in AI [38.8581204791644]
本稿では,人間の意思決定の認知理論からインスピレーションを得たAI研究の方向性を提案する。
前提は、AIでまだ不足しているいくつかの人間の能力の原因について洞察を得ることができれば、AIシステムで同様の能力を得ることができるということです。
論文 参考訳(メタデータ) (2020-10-12T20:10:05Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。