論文の概要: A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and
Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2302.09068v1
- Date: Wed, 15 Feb 2023 05:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:54:46.015761
- Title: A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and
Spatial Reasoning
- Title(参考訳): chatgpt と dall-e 2 の意思決定と空間推論に関するパイロット評価
- Authors: Zhisheng Tang, Mayank Kejriwal
- Abstract要約: 最近リリースされた2つの生成トランスモデルChatGPTとDALL-E 2の評価を行った。
DALL-E2は、各空間推論プロンプトに対して少なくとも1つの正しい画像を生成することができるが、ほとんどの画像は誤りである。
古典的なフォン・ノイマン=モーゲンステルン効用定理の下で開発された公理上のChatGPTを評価する際、ある種の合理的な決定のレベルを示すが、その決定の多くは少なくとも1つの公理に反する。
- 参考スコア(独自算出の注目度): 8.185725740857594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We conduct a pilot study selectively evaluating the cognitive abilities
(decision making and spatial reasoning) of two recently released generative
transformer models, ChatGPT and DALL-E 2. Input prompts were constructed
following neutral a priori guidelines, rather than adversarial intent. Post hoc
qualitative analysis of the outputs shows that DALL-E 2 is able to generate at
least one correct image for each spatial reasoning prompt, but most images
generated are incorrect (even though the model seems to have a clear
understanding of the objects mentioned in the prompt). Similarly, in evaluating
ChatGPT on the rationality axioms developed under the classical Von
Neumann-Morgenstern utility theorem, we find that, although it demonstrates
some level of rational decision-making, many of its decisions violate at least
one of the axioms even under reasonable constructions of preferences, bets, and
decision-making prompts. ChatGPT's outputs on such problems generally tended to
be unpredictable: even as it made irrational decisions (or employed an
incorrect reasoning process) for some simpler decision-making problems, it was
able to draw correct conclusions for more complex bet structures. We briefly
comment on the nuances and challenges involved in scaling up such a 'cognitive'
evaluation or conducting it with a closed set of answer keys ('ground truth'),
given that these models are inherently generative and open-ended in responding
to prompts.
- Abstract(参考訳): 最近リリースされた2つの生成トランスモデル、ChatGPTとDALL-E 2の認知能力(意思決定と空間推論)を選択的に評価する。
入力プロンプトは、敵意ではなく、中立的な事前ガイドラインに従って構築された。
出力のポストホック定性的分析により、DALL-E 2は各空間的推論プロンプトに対して少なくとも1つの正しい画像を生成することができるが、ほとんどの画像は誤りである(モデルがプロンプトで言及されているオブジェクトを明確に理解しているように見える)。
同様に、古典的な Von Neumann-Morgenstern の効用定理の下で開発された有理性公理について ChatGPT の評価において、ある種の有理性決定のレベルを示すが、その決定の多くは、選好、賭け、意思決定のプロンプトの合理的な構成の下でも少なくとも1つの公理に反する。
このような問題に対するchatgptのアウトプットは一般的に予測不可能であり、単純な意思決定問題に対して不合理な決定(あるいは不正確な推論プロセス)を行ったとしても、より複雑な賭け構造に対して正しい結論を導くことができた。
このような「認知的」評価のスケールアップや、解答キーの閉じたセット(「地上真実」)の実行に関わるニュアンスや課題について、これらのモデルが本質的に生成的で、プロンプトに対応してオープンなものであることを考慮し、簡単にコメントする。
関連論文リスト
- Can ChatGPT Make Explanatory Inferences? Benchmarks for Abductive Reasoning [0.0]
本稿では,AIプログラムが説明推論を行う能力を評価するためのベンチマークセットを提案する。
ベンチマークテストでは、ChatGPTが多くのドメインで創造的で評価的な推論を行うことが明らかになった。
ChatGPTと類似のモデルは説明、理解、因果推論、意味、創造性ができないという主張が反論される。
論文 参考訳(メタデータ) (2024-04-29T15:19:05Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - How Ambiguous are the Rationales for Natural Language Reasoning? A Simple Approach to Handling Rationale Uncertainty [0.0]
答の背後にある合理性は、モデル決定を説明するだけでなく、複雑な推論タスクをうまく推理するために言語モデルを促進する。
モデルパフォーマンスを促進するのに十分な根拠が忠実である程度を見積もるのは簡単ではない。
本稿では,不完全理理性に対処する方法を提案する。
論文 参考訳(メタデータ) (2024-02-22T07:12:34Z) - Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - An Interpretable Neuro-Symbolic Reasoning Framework for Task-Oriented
Dialogue Generation [21.106357884651363]
我々は,モデル決定を推論チェーンで正当化する明示的推論を行うために,ニューロシンボリックを導入する。
仮説生成器と推論器からなる2相手法を提案する。
システム全体は、推論チェーンアノテーションを使わずに、生のテキスト対話を利用して訓練される。
論文 参考訳(メタデータ) (2022-03-11T10:44:08Z) - Abstract Reasoning via Logic-guided Generation [65.92805601327649]
抽象的推論、すなわち、与えられた観測から複雑なパターンを推測することは、人工知能の中心的な構成要素である。
本稿では,後者のアプローチの枠組みを設計し,人工知能と人間の知能のギャップを埋めることを目的とする。
本稿では,提案する論理の最適化問題として,抽象的推論を削減した新しい生成型DNNフレームワークであるLoGeを提案する。
論文 参考訳(メタデータ) (2021-07-22T07:28:24Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。