論文の概要: Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23108v1
- Date: Sat, 27 Sep 2025 04:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.045924
- Title: Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery in Large Language Models
- Title(参考訳): 人工パンタシア:大規模言語モデルにおける命題推論に基づくメンタルイメージの証拠
- Authors: Morgan McCarty, Jorge Morales,
- Abstract要約: この研究は、人工システムにおける複雑な認知行動のベンチマークのための新しいアプローチを提供する。
私たちは認知心理学から古典的な精神イメージタスクの新しいアイテムを何十個も作成しました。
その結果,最高のLDMは平均的な人的パフォーマンスよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study offers a novel approach for benchmarking complex cognitive behavior in artificial systems. Almost universally, Large Language Models (LLMs) perform best on tasks which may be included in their training data and can be accomplished solely using natural language, limiting our understanding of their emergent sophisticated cognitive capacities. In this work, we created dozens of novel items of a classic mental imagery task from cognitive psychology. A task which, traditionally, cognitive psychologists have argued is solvable exclusively via visual mental imagery (i.e., language alone would be insufficient). LLMs are perfect for testing this hypothesis. First, we tested several state-of-the-art LLMs by giving text-only models written instructions and asking them to report the resulting object after performing the transformations in the aforementioned task. Then, we created a baseline by testing 100 human subjects in exactly the same task. We found that the best LLMs performed significantly above average human performance. Finally, we tested reasoning models set to different levels of reasoning and found the strongest performance when models allocate greater amounts of reasoning tokens. These results provide evidence that the best LLMs may have the capability to complete imagery-dependent tasks despite the non-pictorial nature of their architectures. Our study not only demonstrates an emergent cognitive capacity in LLMs while performing a novel task, but it also provides the field with a new task that leaves lots of room for improvement in otherwise already highly capable models. Finally, our findings reignite the debate over the formats of representation of visual imagery in humans, suggesting that propositional reasoning (or at least non-imagistic reasoning) may be sufficient to complete tasks that were long-thought to be imagery-dependent.
- Abstract(参考訳): この研究は、人工システムにおける複雑な認知行動のベンチマークのための新しいアプローチを提供する。
ほぼ普遍的に、Large Language Models (LLMs) は、トレーニングデータに含まれる可能性のあるタスクに対して最善を尽くし、自然言語のみを使用して達成できるため、創発的な高度な認知能力に対する理解が制限される。
本研究では,認知心理学から古典的精神イメージ課題の新たな項目を多数作成する。
認知心理学者が伝統的に主張する課題は、視覚的精神的イメージ(つまり言語だけでは不十分)によってのみ解決可能である。
LLMはこの仮説をテストするのに最適です。
まず、テキストのみのモデル記述命令を与え、上記のタスクで変換を実行した後、結果のオブジェクトを報告するように要求することで、最先端のLCMをいくつかテストした。
そして、100人の被験者をまったく同じタスクでテストすることで、ベースラインを作成しました。
その結果,最高のLDMは平均的人的性能よりも有意に優れていた。
最後に、異なる推論レベルに設定された推論モデルをテストし、モデルがより多くの推論トークンを割り当てるとき、最も強力なパフォーマンスを見出した。
これらの結果は、最高のLCMが、アーキテクチャの非図形的性質にもかかわらず、画像依存タスクを完了できる可能性を証明している。
我々の研究は、新しいタスクを実行している間に、LSMにおいて突発的な認知能力を示すだけでなく、すでに高い能力を持つモデルに多くの改善の余地を残した新しいタスクを提供する。
最後に,人間の視覚的イメージの表現形式に関する議論が再燃し,提案的推論(少なくとも非想像的推論)が画像に依存しないと思われるタスクを完遂するのに十分である可能性が示唆された。
関連論文リスト
- Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。
この論文は、推論から知覚へと焦点を移す。
論文 参考訳(メタデータ) (2025-07-21T21:50:16Z) - Assessing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation [0.3359875577705537]
本研究では,大きな言語モデル (LLM) が芸術に関連する2つの領域でどのように機能するかを考察する。
批判生成部分には,ノエル・キャロルの評価枠組みと幅広い美術批評理論を組み合わせるシステムを構築した。
これらの批判は、チューリングテストスタイルの評価において、人間の専門家によって書かれたものと比較された。
第2部では、解釈、感情、道徳的緊張を含む状況に基づいた、新しいシンプルなToMタスクを導入した。
論文 参考訳(メタデータ) (2025-04-17T10:10:25Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。
意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。
GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。
LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文 参考訳(メタデータ) (2024-12-20T02:26:56Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。