論文の概要: An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities
in RCC-8
- arxiv url: http://arxiv.org/abs/2309.15577v1
- Date: Wed, 27 Sep 2023 11:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:06:20.061574
- Title: An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities
in RCC-8
- Title(参考訳): RCC-8におけるChatGPT-4の定性的空間推論能力の評価
- Authors: Anthony G Cohn
- Abstract要約: 本稿では, メレオトポロジカル計算, RCC-8における古典的定性的空間推論タスクを, 特定のLLMが行うことができる範囲について検討する。
- 参考スコア(独自算出の注目度): 3.8324903698928106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative Spatial Reasoning (QSR) is well explored area of Commonsense
Reasoning and has multiple applications ranging from Geographical Information
Systems to Robotics and Computer Vision. Recently many claims have been made
for the capabilities of Large Language Models (LLMs). In this paper we
investigate the extent to which one particular LLM can perform classical
qualitative spatial reasoning tasks on the mereotopological calculus, RCC-8.
- Abstract(参考訳): 定性的空間推論(QSR)は、地理情報システムからロボティクス、コンピュータビジョンまで多岐にわたる応用分野である。
近年、Large Language Models (LLMs) の能力について多くの主張がなされている。
本稿では, メレオトポロジカル計算, RCC-8における古典的定性的空間推論タスクを, 特定のLLMが行うことができる範囲について検討する。
関連論文リスト
- RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing [0.2302001830524133]
本稿では,検索言語モデル (RALM) に関する総合的な概要の欠如について論じる。
本稿では、Retrievers、Language Models、Augmentationsなど、ALMの本質的なコンポーネントについて論じる。
RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。
論文 参考訳(メタデータ) (2024-04-30T13:14:51Z) - Unveiling Linguistic Regions in Large Language Models [52.88954646359624]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z) - An Experiment in Retrofitting Competency Questions for Existing
Ontologies [0.0]
公理とともにCQを検査することは、CQのスコープと適用性に関する重要な洞察を提供する。
CQは工学的手法の大多数に不可欠なものであるが、工芸品とともにCQを出版する実践は広くは観察されていない。
論文 参考訳(メタデータ) (2023-11-09T08:57:39Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - How to Handle Different Types of Out-of-Distribution Scenarios in
Computational Argumentation? A Comprehensive and Fine-Grained Field Study [66.4659448305396]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Few-shot Unified Question Answering: Tuning Models or Prompts? [23.885286975673644]
本稿では,低リソース環境下での統一QAのためのチューニング,モデル,プロンプトの2つのパラダイムの可能性について検討する。
この研究は、数ショットの環境で統合されたQAのための迅速なチューニングの利点と制限に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T23:14:38Z) - A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken
Command Recognition [69.97260364850001]
本稿では,量子カーネル学習(QKL)フレームワークを提案する。
古典的-量子的特徴符号化に基づく音響特性を計画する。
論文 参考訳(メタデータ) (2022-11-02T16:46:23Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - A Generalised Approach for Encoding and Reasoning with Qualitative
Theories in Answer Set Programming [3.963609604649393]
バイナリ関係を持つ定性計算を扱えるASPエンコーディングのファミリーが提案されている。
本論文はTPLPの受容について検討中である。
論文 参考訳(メタデータ) (2020-08-04T13:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。