論文の概要: An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities
in RCC-8
- arxiv url: http://arxiv.org/abs/2309.15577v1
- Date: Wed, 27 Sep 2023 11:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-28 14:06:20.061574
- Title: An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities
in RCC-8
- Title(参考訳): RCC-8におけるChatGPT-4の定性的空間推論能力の評価
- Authors: Anthony G Cohn
- Abstract要約: 本稿では, メレオトポロジカル計算, RCC-8における古典的定性的空間推論タスクを, 特定のLLMが行うことができる範囲について検討する。
- 参考スコア(独自算出の注目度): 3.8324903698928106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative Spatial Reasoning (QSR) is well explored area of Commonsense
Reasoning and has multiple applications ranging from Geographical Information
Systems to Robotics and Computer Vision. Recently many claims have been made
for the capabilities of Large Language Models (LLMs). In this paper we
investigate the extent to which one particular LLM can perform classical
qualitative spatial reasoning tasks on the mereotopological calculus, RCC-8.
- Abstract(参考訳): 定性的空間推論(QSR)は、地理情報システムからロボティクス、コンピュータビジョンまで多岐にわたる応用分野である。
近年、Large Language Models (LLMs) の能力について多くの主張がなされている。
本稿では, メレオトポロジカル計算, RCC-8における古典的定性的空間推論タスクを, 特定のLLMが行うことができる範囲について検討する。
関連論文リスト
- Assessing the Capability of Large Language Models for Domain-Specific Ontology Generation [1.099532646524593]
大規模言語モデル(LLM)は、オントロジー工学に大きな可能性を示している。
本稿では,2つの最先端LCM,DeepSeek と o1-preview の一般化可能性について,一連の有能な質問から考察する。
その結果,全ての領域で実験性能が著しく整合していることが判明した。
論文 参考訳(メタデータ) (2025-04-24T09:47:14Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Can Large Language Models Reason about the Region Connection Calculus? [3.2441135190739416]
大規模言語モデル(LLM)の推論能力について検討する。
我々は,3組の実験(構成表の再構成,人間の構成嗜好の整合性,概念的近傍再構築)を最先端のLCMを用いて行った。
すべてのインスタンスは、LLMの関係性を測定するために30回繰り返される。
論文 参考訳(メタデータ) (2024-11-29T10:10:16Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - TuringQ: Benchmarking AI Comprehension in Theory of Computation [0.9023847175654603]
本稿では,計算理論における大規模言語モデル(LLM)の推論能力を評価するために設計された最初のベンチマークであるTuringQを紹介する。
チューリングQは4,006人の学部生と大学院レベルの質問応答ペアで構成され、難易度は4つの難易度に分類され、7つの中核的な理論領域をカバーする。
論文 参考訳(メタデータ) (2024-10-09T04:53:38Z) - A RAG Approach for Generating Competency Questions in Ontology Engineering [1.0044270899550196]
LLM(Large Language Models)の出現により、このプロセスの自動化と強化が可能になった。
本稿では,LLMを用いてCQの自動生成を行うRAG(Research-augmented Generation)手法を提案する。
2つのドメインエンジニアリングタスクで GPT-4 を用いて実験を行い、ドメインの専門家が構築した地味な CQ と比較する。
論文 参考訳(メタデータ) (2024-09-13T13:34:32Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - An Experiment in Retrofitting Competency Questions for Existing
Ontologies [0.0]
公理とともにCQを検査することは、CQのスコープと適用性に関する重要な洞察を提供する。
CQは工学的手法の大多数に不可欠なものであるが、工芸品とともにCQを出版する実践は広くは観察されていない。
論文 参考訳(メタデータ) (2023-11-09T08:57:39Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken
Command Recognition [69.97260364850001]
本稿では,量子カーネル学習(QKL)フレームワークを提案する。
古典的-量子的特徴符号化に基づく音響特性を計画する。
論文 参考訳(メタデータ) (2022-11-02T16:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。