論文の概要: Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark
- arxiv url: http://arxiv.org/abs/2506.07896v1
- Date: Mon, 09 Jun 2025 16:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.037364
- Title: Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark
- Title(参考訳): フレーム上の大規模言語モデルの評価と記号接地問題:ゼロショットベンチマーク
- Authors: Shoko Oka,
- Abstract要約: フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have revitalized philosophical debates surrounding artificial intelligence. Two of the most fundamental challenges - namely, the Frame Problem and the Symbol Grounding Problem - have historically been viewed as unsolvable within traditional symbolic AI systems. This study investigates whether modern LLMs possess the cognitive capacities required to address these problems. To do so, I designed two benchmark tasks reflecting the philosophical core of each problem, administered them under zero-shot conditions to 13 prominent LLMs (both closed and open-source), and assessed the quality of the models' outputs across five trials each. Responses were scored along multiple criteria, including contextual reasoning, semantic coherence, and information filtering. The results demonstrate that while open-source models showed variability in performance due to differences in model size, quantization, and instruction tuning, several closed models consistently achieved high scores. These findings suggest that select modern LLMs may be acquiring capacities sufficient to produce meaningful and stable responses to these long-standing theoretical challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人工知能に関する哲学的議論を再燃させた。
フレーム問題(Frame Problem)とシンボルグラウンド問題(Symbol Grounding Problem)という2つの最も基本的な課題は、歴史的に、従来の象徴的AIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
そこで私は,各問題の哲学的コアを反映した2つのベンチマークタスクを設計し,ゼロショット条件下で13個の著名なLCM(クローズドおよびオープンソースの両方)に管理し,それぞれ5つの試行でモデル出力の品質を評価した。
応答は、文脈推論、セマンティックコヒーレンス、情報フィルタリングなど、複数の基準に沿って評価された。
その結果、オープンソースモデルでは、モデルサイズ、量子化、命令チューニングの違いにより、性能の変動が見られたが、いくつかのクローズドモデルは、常に高いスコアを得た。
これらの結果から,近年のLSMは,これらの長期的理論課題に対する有意義で安定した応答を得られるだけの能力を獲得している可能性が示唆された。
関連論文リスト
- SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving [1.5106583432923495]
本稿では,最新のLLMの性能を評価するための新しい評価手法であるLLM-ProSを提案する。
2011年から2024年までの166のワールドファイナル問題のデータセットを使用して、モデルの推論、正確性、効率をベンチマークします。
この結果から,新しい問題を一般化し,適応し,解決するモデルの能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-02-04T18:55:14Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。