Fugu-MT 論文翻訳(概要): Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study

論文の概要: Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study

arxiv url: http://arxiv.org/abs/2408.14438v2
Date: Wed, 28 Aug 2024 13:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 12:58:09.295748
Title: Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study
Title（参考訳）: 空間課題における大規模言語モデルの評価:マルチタスクベンチマークによる検討
Authors: Liuchang Xu, Shuo Zhao, Qingming Lin, Luyao Chen, Qianqian Luo, Sensen Wu, Xinyue Ye, Hailin Feng, Zhenhong Du,
Abstract要約: 本研究では,新しいマルチタスク空間評価データセットを提案する。データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
参考スコア（独自算出の注目度）: 4.80612909282198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of large language models such as ChatGPT, Gemini, and others has underscored the importance of evaluating their diverse capabilities, ranging from natural language understanding to code generation. However, their performance on spatial tasks has not been comprehensively assessed. This study addresses this gap by introducing a novel multi-task spatial evaluation dataset, designed to systematically explore and compare the performance of several advanced models on spatial tasks. The dataset encompasses twelve distinct task types, including spatial understanding and path planning, each with verified, accurate answers. We evaluated multiple models, including OpenAI's gpt-3.5-turbo, gpt-4o, and ZhipuAI's glm-4, through a two-phase testing approach. Initially, we conducted zero-shot testing, followed by categorizing the dataset by difficulty and performing prompt tuning tests. Results indicate that gpt-4o achieved the highest overall accuracy in the first phase, with an average of 71.3%. Although moonshot-v1-8k slightly underperformed overall, it surpassed gpt-4o in place name recognition tasks. The study also highlights the impact of prompt strategies on model performance in specific tasks. For example, the Chain-of-Thought (COT) strategy increased gpt-4o's accuracy in path planning from 12.4% to 87.5%, while a one-shot strategy enhanced moonshot-v1-8k's accuracy in mapping tasks from 10.1% to 76.3%.
Abstract（参考訳）: ChatGPTやGeminiといった大規模言語モデルの出現は、自然言語理解からコード生成まで、さまざまな能力を評価することの重要性を強調している。しかし,空間的課題におけるそれらの性能は包括的に評価されていない。本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を体系的に探索し,比較するために設計された,新しいマルチタスク空間評価データセットを導入することで,このギャップに対処する。データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含み、それぞれが検証された正確な答えを持っている。 2相試験により,OpenAIのgpt-3.5-turbo,gpt-4o,ZhipuAIのglm-4を含む複数のモデルを評価した。最初はゼロショットテストを行い、続いてデータセットを難易度で分類し、迅速なチューニングテストを実行しました。結果,gpt-4oは第1相において平均71.3%の総合的精度を示した。ムーンショット-v1-8kは全体的に若干性能が劣ったが、地名認識タスクではgpt-4oを上回った。調査はまた、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。例えば、Chain-of-Thought(COT)戦略では、経路計画におけるgpt-4oの精度が12.4%から87.5%に向上し、一方、1ショット戦略では、マッピングタスクにおけるv1-8kの精度が10.1%から76.3%に向上した。

関連論文リスト

AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP [2.869780207429188]
大規模言語モデル(LLM)は推論能力の顕著な進歩を示している。しかし、アラビアデータにおける彼らのパフォーマンスは、豊富な形態学、多様な方言、複雑な文字によって特徴づけられ、未発見のままである。本稿では,複数の推論に焦点をあてたLLMの総合的なベンチマーク研究について述べる。
論文参考訳（メタデータ） (2025-06-10T13:10:31Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。 ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文参考訳（メタデータ） (2024-11-16T18:43:26Z)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文参考訳（メタデータ） (2024-08-05T03:05:02Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks [0.0]
本研究では、4つのチャットボットに割り当てられた7つのタスクカテゴリの76個の空間的タスクに対してゼロショットの正当性評価を行う。チャットボットは、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。
論文参考訳（メタデータ） (2024-01-04T18:43:26Z)
Applying Large Language Models and Chain-of-Thought for Automatic Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文参考訳（メタデータ） (2023-11-30T21:22:43Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。 Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文参考訳（メタデータ） (2023-05-22T17:59:43Z)
Data-Efficient Finetuning Using Cross-Task Nearest Neighbors [75.07773863013001]
我々は、ラベル付きターゲットタスクの例を用いて、プロンプトを付加したマルチタスクデータのプールから、最も類似したラベル付きサンプルを検索する。マルチタスク近傍におけるファインタニングモデルのアプローチは,データ効率が著しく向上する。
論文参考訳（メタデータ） (2022-12-01T00:53:04Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文参考訳（メタデータ） (2021-07-10T02:43:16Z)
Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文参考訳（メタデータ） (2020-11-09T21:30:31Z)
Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。 GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-05-28T17:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。