論文の概要: Reasoning about Affordances: Causal and Compositional Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2502.16606v1
- Date: Sun, 23 Feb 2025 15:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:33.722841
- Title: Reasoning about Affordances: Causal and Compositional Reasoning in LLMs
- Title(参考訳): LLMにおける因果関係と構成関係
- Authors: Magnus F. Gjerde, Vanessa Cheung, David Lagnado,
- Abstract要約: 本研究では,大規模言語モデル (LLM) と人間による,物価の分野における因果的・構成的推論能力について検討する。
実験1では, GPT-3.5 と GPT-4o を比較し, GPT-4o がヒトと同等であったのに対し, GPT-3.5 は有意に低下していた。
実験2では, GPTモデルに加えて, Distractor と Image という2つの新しい条件を導入し, Claude 3 Sonnet と Claude 3.5 Sonnet の評価を行った。
GPT-4oとClaude 3.5は依然としてかなり上回っているが、ディトラクタ条件は人体とモデル間で性能を著しく低下させた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the rapid progress of Large Language Models (LLMs), it becomes increasingly important to understand their abilities and limitations. In two experiments, we investigate the causal and compositional reasoning abilities of LLMs and humans in the domain of object affordances, an area traditionally linked to embodied cognition. The tasks, designed from scratch to avoid data contamination, require decision-makers to select unconventional objects to replace a typical tool for a particular purpose, such as using a table tennis racket to dig a hole. In Experiment 1, we evaluated GPT-3.5 and GPT-4o, finding that GPT-4o, when given chain-of-thought prompting, performed on par with human participants, while GPT-3.5 lagged significantly. In Experiment 2, we introduced two new conditions, Distractor (more object choices, increasing difficulty) and Image (object options presented visually), and evaluated Claude 3 Sonnet and Claude 3.5 Sonnet in addition to the GPT models. The Distractor condition significantly impaired performance across humans and models, although GPT-4o and Claude 3.5 still performed well above chance. Surprisingly, the Image condition had little impact on humans or GPT-4o, but significantly lowered Claude 3.5's accuracy. Qualitative analysis showed that GPT-4o and Claude 3.5 have a stronger ability than their predecessors to identify and flexibly apply causally relevant object properties. The improvement from GPT-3.5 and Claude 3 to GPT-4o and Claude 3.5 suggests that models are increasingly capable of causal and compositional reasoning in some domains, although further mechanistic research is necessary to understand how LLMs reason.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩に伴い、その能力や限界を理解することがますます重要になる。
2つの実験において,従来の認知の具体化に関連する領域である,物価領域におけるLLMとヒトの因果的・構成的推論能力について検討した。
データ汚染を避けるためにスクラッチから設計されたこれらのタスクは、テーブルテニスラケットを使って穴を掘るなど、特定の目的のために典型的なツールを置き換えるために、非伝統的なオブジェクトを選択する必要がある。
実験1では, GPT-3.5 と GPT-4o を評価し, GPT-4o がヒトと同等であったのに対し, GPT-3.5 は有意に低下していた。
実験2では,2つの新しい条件,Distractor(よりオブジェクト選択,難易度の向上),Image(オブジェクト選択を視覚的に提示する)を導入し,GPTモデルに加えてClaude 3 SonnetとClaude 3.5 Sonnetを評価した。
ディトラクター・コンディションは人間とモデルの性能を著しく低下させたが、GPT-4oとClaude 3.5は依然としてチャンスをはるかに上回っていた。
驚くべきことに、画像条件は人間やGPT-4oにはほとんど影響を与えなかったが、クロード3.5の精度は著しく低下した。
定性的分析により, GPT-4o と Claude 3.5 は前者よりも強く, 因果関係のある対象特性を同定し, 柔軟に適用できることがわかった。
GPT-3.5 と Claude 3 から GPT-4o と Claude 3.5 への改良は、モデルがいくつかの領域において因果的および構成的推論能力の増大を示唆している。
関連論文リスト
- Do Large Language Models Reason Causally Like Us? Even Better? [7.749713014052951]
大きな言語モデル(LLM)は、人間のようなテキストを生成する際、印象的な能力を示している。
我々は,コライダーグラフに基づくタスクを用いて,人間と4つのLDMの因果推論を比較した。
LLMは、モデル、コンテキスト、タスクに基づくアライメントシフトを伴って、人間のようなスペクトルから規範的推論へと因果関係を推論する。
論文 参考訳(メタデータ) (2025-02-14T15:09:15Z) - In-Context Learning for Long-Context Sentiment Analysis on Infrastructure Project Opinions [2.974480694911691]
本研究では, GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Proの3大言語モデルの性能評価を行った。
以上の結果から,GPT-4oはより単純で短い文書のゼロショットシナリオに優れており,Claude 3.5 Sonnetはより複雑で感情変動的な意見を扱うという点でGPT-4oを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-15T04:42:21Z) - Using GPT-4 to guide causal machine learning [5.953513005270839]
確立されたGPT-4(Turbo)に着目し,その性能を最も制約のある条件下で評価する。
その結果, GPT-4 グラフは評価カテゴリーで最も正確であることがわかった。
GPT-4と因果MLのペアリングは、この制限を克服し、実際のデータからグラフィカル構造を学習し、ドメインの専門家によって特定されたものとより密に一致することを示す。
論文 参考訳(メタデータ) (2024-07-26T08:59:26Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Unveiling Divergent Inductive Biases of LLMs on Temporal Data [4.561800294155325]
本研究は、時間データ解析におけるGPT-3.5およびGPT-4モデルの性能評価に焦点をあてる。
特定の時間的関係に対する偏見が明らかになり、GPT-3.5は暗黙的イベントと明示的イベントの両方のQAフォーマットで「AFTER」を優先する一方、GPT-4は「BEFORE」に傾いている。
論文 参考訳(メタデータ) (2024-04-01T19:56:41Z) - Can Large Language Models do Analytical Reasoning? [45.69642663863077]
本稿では,スポーツにおける分析的推論を用いた最先端の大規模言語モデルについて検討する。
GPT-4が有効であり,次いでClaude-2.1,GPT-3.5,Gemini-Pro,Llama-2-70bが遅れている。
意外なことに、GPT-4を含むほとんどのモデルでは、NFLのクォータースコアは高いパフォーマンスを示したにもかかわらず、NBAのクォーターの総得点を正確に数えるのに苦労している。
論文 参考訳(メタデータ) (2024-03-06T20:22:08Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Spatio-Temporal Graph Contrastive Learning [49.132528449909316]
これらの問題に対処するための時空間グラフコントラスト学習フレームワーク(STGCL)を提案する。
グラフ構造、時間領域、周波数領域の4種類のデータ拡張について詳述する。
我々のフレームワークは、実世界の3つのデータセットと4つの最先端モデルで評価されている。
論文 参考訳(メタデータ) (2021-08-26T16:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。