論文の概要: Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark
- arxiv url: http://arxiv.org/abs/2506.07896v1
- Date: Mon, 09 Jun 2025 16:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.037364
- Title: Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark
- Title(参考訳): フレーム上の大規模言語モデルの評価と記号接地問題:ゼロショットベンチマーク
- Authors: Shoko Oka,
- Abstract要約: フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have revitalized philosophical debates surrounding artificial intelligence. Two of the most fundamental challenges - namely, the Frame Problem and the Symbol Grounding Problem - have historically been viewed as unsolvable within traditional symbolic AI systems. This study investigates whether modern LLMs possess the cognitive capacities required to address these problems. To do so, I designed two benchmark tasks reflecting the philosophical core of each problem, administered them under zero-shot conditions to 13 prominent LLMs (both closed and open-source), and assessed the quality of the models' outputs across five trials each. Responses were scored along multiple criteria, including contextual reasoning, semantic coherence, and information filtering. The results demonstrate that while open-source models showed variability in performance due to differences in model size, quantization, and instruction tuning, several closed models consistently achieved high scores. These findings suggest that select modern LLMs may be acquiring capacities sufficient to produce meaningful and stable responses to these long-standing theoretical challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人工知能に関する哲学的議論を再燃させた。
フレーム問題(Frame Problem)とシンボルグラウンド問題(Symbol Grounding Problem)という2つの最も基本的な課題は、歴史的に、従来の象徴的AIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
そこで私は,各問題の哲学的コアを反映した2つのベンチマークタスクを設計し,ゼロショット条件下で13個の著名なLCM(クローズドおよびオープンソースの両方)に管理し,それぞれ5つの試行でモデル出力の品質を評価した。
応答は、文脈推論、セマンティックコヒーレンス、情報フィルタリングなど、複数の基準に沿って評価された。
その結果、オープンソースモデルでは、モデルサイズ、量子化、命令チューニングの違いにより、性能の変動が見られたが、いくつかのクローズドモデルは、常に高いスコアを得た。
これらの結果から,近年のLSMは,これらの長期的理論課題に対する有意義で安定した応答を得られるだけの能力を獲得している可能性が示唆された。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。