論文の概要: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited
- arxiv url: http://arxiv.org/abs/2507.12059v1
- Date: Wed, 16 Jul 2025 09:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.323841
- Title: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited
- Title(参考訳): 大規模言語モデルによる心的方向の推論能力の評価について再考
- Authors: Anthony G Cohn, Robert E Blackwell,
- Abstract要約: テンプレートの集合から生成されたベンチマークを用いて,28大言語モデル(LLM)の基準方向(CD)を推論する能力について検討した。
特定のシナリオから正しいCDを決定するLLMの能力を広範囲にテストする。
新しい大きな推論モデルでさえ、すべての質問に対して正しいCDを確実に決定できない。
- 参考スコア(独自算出の注目度): 3.2441135190739416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the abilities of 28 Large language Models (LLMs) to reason about cardinal directions (CDs) using a benchmark generated from a set of templates, extensively testing an LLM's ability to determine the correct CD given a particular scenario. The templates allow for a number of degrees of variation such as means of locomotion of the agent involved, and whether set in the first, second or third person. Even the newer Large Reasoning Models are unable to reliably determine the correct CD for all questions. This paper summarises and extends earlier work presented at COSIT-24.
- Abstract(参考訳): テンプレートの集合から生成されたベンチマークを用いて, 基準方向(CD)を推論する大規模言語モデル(LLM)の能力について検討し, 特定のシナリオから正しいCDを決定するLLMの能力を広範囲にわたって検証した。
テンプレートは、関係するエージェントの移動手段や、第1、第2、第3の人物に設定されているかどうかなど、さまざまな変化を許容する。
新しい大きな推論モデルでさえ、すべての質問に対して正しいCDを確実に決定できない。
本論文は,COSIT-24における先行研究を要約し,拡張する。
関連論文リスト
- Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Evaluating the Ability of Large Language Models to Reason about Cardinal Directions [3.2441135190739416]
我々は,大規模言語モデルの代表集合が基準方向(CD)を判断する能力について検討する。
最初はChatGPTと共同で作成され、CDに関する世界的知識のリコールに重点を置いています。
論文 参考訳(メタデータ) (2024-06-24T11:07:01Z) - Abstraction-of-Thought Makes Language Models Better Reasoners [79.72672444664376]
AoT(Abstraction-of-Thought)と呼ばれる新しい構造化推論形式を導入する。
AoTのユニークな点は、推論プロセス内での抽象化のさまざまなレベルに対する明示的な要件にある。
提案するAoTコレクションは,AoT推論プロセスを用いた348kの高品質サンプルからなる汎用微調整データセットである。
論文 参考訳(メタデータ) (2024-06-18T09:46:44Z) - Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - A New Learning Paradigm for Foundation Model-based Remote Sensing Change
Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。
本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文 参考訳(メタデータ) (2023-12-02T15:57:17Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - PADA: Pruning Assisted Domain Adaptation for Self-Supervised Speech
Representations [1.2031796234206138]
PADA(Pruning Assisted Domain Adaptation)と、大量のドメイン外(OOD)データに基づいて事前訓練されたモデルから余剰重量をゼロにする。
冗長ウェイトは、この研究の一部として詳細に議論された様々なプルーニング戦略を通じて特定することができる。
具体的には、最近発見されたタスク非依存およびタスク認識プルーニングがPADに与える影響を調査し、後者に基づく新しいプルーニングパラダイムを提案する。
提案したCD-TAW法は,Switchの2時間サブセットを微調整した場合,ベースラインよりも20.6%の相対的なWER改善を実現する。
論文 参考訳(メタデータ) (2022-03-31T11:34:58Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。