論文の概要: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions
- arxiv url: http://arxiv.org/abs/2406.16528v1
- Date: Mon, 24 Jun 2024 11:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:14:19.625786
- Title: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions
- Title(参考訳): 大規模言語モデルによる心的方向の推論能力の評価
- Authors: Anthony G Cohn, Robert E Blackwell,
- Abstract要約: 我々は,大規模言語モデルの代表集合が基準方向(CD)を判断する能力について検討する。
最初はChatGPTと共同で作成され、CDに関する世界的知識のリコールに重点を置いています。
- 参考スコア(独自算出の注目度): 3.2441135190739416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the abilities of a representative set of Large language Models (LLMs) to reason about cardinal directions (CDs). To do so, we create two datasets: the first, co-created with ChatGPT, focuses largely on recall of world knowledge about CDs; the second is generated from a set of templates, comprehensively testing an LLM's ability to determine the correct CD given a particular scenario. The templates allow for a number of degrees of variation such as means of locomotion of the agent involved, and whether set in the first , second or third person. Even with a temperature setting of zero, Our experiments show that although LLMs are able to perform well in the simpler dataset, in the second more complex dataset no LLM is able to reliably determine the correct CD, even with a temperature setting of zero.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) の標準方向 (CDs) を推論する能力について検討する。
そのために、ChatGPTと共同開発した第1のデータセットは、CDに関する世界的知識のリコールに重点を置いています。
テンプレートは、関係するエージェントの移動手段や、第1、第2、第3の人物に設定されているかどうかなど、さまざまな変化を許容する。
温度設定がゼロであっても、LLMはより単純なデータセットではうまく機能するが、第2のより複雑なデータセットでは、ゼロの温度設定でも正しいCDを確実に決定できない。
関連論文リスト
- FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。