論文の概要: NEWTON: Are Large Language Models Capable of Physical Reasoning?
- arxiv url: http://arxiv.org/abs/2310.07018v1
- Date: Tue, 10 Oct 2023 21:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:18:29.132956
- Title: NEWTON: Are Large Language Models Capable of Physical Reasoning?
- Title(参考訳): NEWTON:大規模言語モデルは物理推論が可能か?
- Authors: Yi Ru Wang, Jiafei Duan, Dieter Fox, Siddhartha Srinivasa
- Abstract要約: 本稿では,大規模言語モデルの物理推論能力を評価するためのレポジトリとベンチマークであるNEWTONを紹介する。
リポジトリは、オブジェクトと属性のペアのコレクションを含み、無限スケールのアセスメントテンプレートを生成する基盤を提供する。
GPT-4のようなLCMはシナリオベースタスクでは強い推論能力を示すが、人間に比べてオブジェクト属性推論では一貫性が低い。
- 参考スコア(独自算出の注目度): 36.631017958809224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), through their contextualized representations,
have been empirically proven to encapsulate syntactic, semantic, word sense,
and common-sense knowledge. However, there has been limited exploration of
their physical reasoning abilities, specifically concerning the crucial
attributes for comprehending everyday objects. To address this gap, we
introduce NEWTON, a repository and benchmark for evaluating the physics
reasoning skills of LLMs. Further, to enable domain-specific adaptation of this
benchmark, we present a pipeline to enable researchers to generate a variant of
this benchmark that has been customized to the objects and attributes relevant
for their application. The NEWTON repository comprises a collection of 2800
object-attribute pairs, providing the foundation for generating infinite-scale
assessment templates. The NEWTON benchmark consists of 160K QA questions,
curated using the NEWTON repository to investigate the physical reasoning
capabilities of several mainstream language models across foundational,
explicit, and implicit reasoning tasks. Through extensive empirical analysis,
our results highlight the capabilities of LLMs for physical reasoning. We find
that LLMs like GPT-4 demonstrate strong reasoning capabilities in
scenario-based tasks but exhibit less consistency in object-attribute reasoning
compared to humans (50% vs. 84%). Furthermore, the NEWTON platform demonstrates
its potential for evaluating and enhancing language models, paving the way for
their integration into physically grounded settings, such as robotic
manipulation. Project site: https://newtonreasoning.github.io
- Abstract(参考訳): 大言語モデル(LLM)は、文脈化された表現を通じて、構文、意味、単語感覚、常識知識をカプセル化することが実証的に証明されている。
しかし、その身体的推論能力、特に日常的な物体の理解において重要な属性についての調査は限られている。
このギャップに対処するために,LLMの物理推論スキルを評価するためのレポジトリとベンチマークであるNEWTONを紹介する。
さらに、このベンチマークのドメイン固有の適応を可能にするために、研究者がアプリケーションに関連するオブジェクトと属性にカスタマイズされたこのベンチマークのバリエーションを生成できるパイプラインを提案する。
NEWTONレポジトリは2800のオブジェクト属性対から構成され、無限スケールアセスメントテンプレートを生成する基盤を提供する。
NEWTONベンチマークは160K QA質問で構成され、NEWTONリポジトリを使用して基礎的、明示的、暗黙的な推論タスクにわたるいくつかの主流言語モデルの物理的推論能力を調べる。
広範な経験的分析を通して,本研究は物理推論におけるllmの能力を強調した。
GPT-4のようなLCMはシナリオベースタスクでは強い推論能力を示すが、人間に比べてオブジェクト属性推論では一貫性が低い(50%対84%)。
さらに、NEWTONプラットフォームは言語モデルの評価と強化の可能性を実証し、ロボット操作のような物理的に接地された設定への統合の道を開いた。
プロジェクトサイト: https://newtonreasoning.github.io
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。