Fugu-MT 論文翻訳(概要): Evaluating the Ability of Large Language Models to Reason about Cardinal Directions

論文の概要: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions

arxiv url: http://arxiv.org/abs/2406.16528v1
Date: Mon, 24 Jun 2024 11:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:14:19.625786
Title: Evaluating the Ability of Large Language Models to Reason about Cardinal Directions
Title（参考訳）: 大規模言語モデルによる心的方向の推論能力の評価
Authors: Anthony G Cohn, Robert E Blackwell,
Abstract要約: 我々は,大規模言語モデルの代表集合が基準方向(CD)を判断する能力について検討する。最初はChatGPTと共同で作成され、CDに関する世界的知識のリコールに重点を置いています。
参考スコア（独自算出の注目度）: 3.2441135190739416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the abilities of a representative set of Large language Models (LLMs) to reason about cardinal directions (CDs). To do so, we create two datasets: the first, co-created with ChatGPT, focuses largely on recall of world knowledge about CDs; the second is generated from a set of templates, comprehensively testing an LLM's ability to determine the correct CD given a particular scenario. The templates allow for a number of degrees of variation such as means of locomotion of the agent involved, and whether set in the first , second or third person. Even with a temperature setting of zero, Our experiments show that although LLMs are able to perform well in the simpler dataset, in the second more complex dataset no LLM is able to reliably determine the correct CD, even with a temperature setting of zero.
Abstract（参考訳）: 本研究では,Large Language Models (LLMs) の標準方向 (CDs) を推論する能力について検討する。そのために、ChatGPTと共同開発した第1のデータセットは、CDに関する世界的知識のリコールに重点を置いています。テンプレートは、関係するエージェントの移動手段や、第1、第2、第3の人物に設定されているかどうかなど、さまざまな変化を許容する。温度設定がゼロであっても、LLMはより単純なデータセットではうまく機能するが、第2のより複雑なデータセットでは、ゼロの温度設定でも正しいCDを確実に決定できない。

関連論文リスト

CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task [49.27354010985993]
LLM(Large Language Models)の最近の進歩は、その能力を大幅に強化している。既存のベンチマークでは、LLM能力を評価するための総合的なフレームワークが欠如しているため、孤立した能力に重点を置いていることが多い。本稿では,3次元にまたがるモデルの性能を包括的に測定するコグニション・ドメイン・タスク(CDT)フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-29T08:10:29Z)
DaMoC: Efficiently Selecting the Optimal Large Language Model for Fine-tuning Domain Tasks Based on Data and Model Compression [7.1654056866441245]
大規模言語モデル(LLM)は、一般的なタスクでは優れているが、ドメイン固有のタスクでは苦労し、特定のデータに対して微調整を必要とする。この課題に対処するデータ・モデル圧縮フレームワーク(DaMoC)を導入します。トレーニング時間に約20倍の時間を節約しながら,最適なLLMを選択することができることを示す。
論文参考訳（メタデータ） (2025-09-01T08:06:49Z)
Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited [3.2441135190739416]
テンプレートの集合から生成されたベンチマークを用いて,28大言語モデル(LLM)の基準方向(CD)を推論する能力について検討した。特定のシナリオから正しいCDを決定するLLMの能力を広範囲にテストする。新しい大きな推論モデルでさえ、すべての質問に対して正しいCDを確実に決定できない。
論文参考訳（メタデータ） (2025-07-16T09:16:36Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
Random-Set Large Language Models [4.308457163593758]
大規模言語モデル(LLM)は、クエリに対する非常に高品質なテストとレスポンスを生成することで知られています。しかし、この生成されたテキストはいくら信用できますか? 本稿では,トークン空間上の有限ランダム集合(関数)を予測するランダムセット大言語モデル(RSLLM)を提案する。
論文参考訳（メタデータ） (2025-04-25T05:25:27Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。 a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文参考訳（メタデータ） (2024-01-01T08:32:50Z)
Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。 R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文参考訳（メタデータ） (2023-06-15T20:56:20Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。モデルとデータセットの両方を研究コミュニティに公開しています。
論文参考訳（メタデータ） (2023-05-23T08:43:42Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。