Fugu-MT 論文翻訳(概要): Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies

論文の概要: Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies

arxiv url: http://arxiv.org/abs/2402.17396v2
Date: Thu, 11 Jul 2024 15:54:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:07:33.029163
Title: Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies
Title（参考訳）: アルゴリズム問題におけるGPT-4のベンチマーク:プロンプト戦略の体系的評価
Authors: Flavio Petruzzellis, Alberto Testolin, Alessandro Sperduti,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。 LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
参考スコア（独自算出の注目度）: 47.129504708849446
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) have revolutionized the field of Natural Language Processing thanks to their ability to reuse knowledge acquired on massive text corpora on a wide variety of downstream tasks, with minimal (if any) tuning steps. At the same time, it has been repeatedly shown that LLMs lack systematic generalization, which allows to extrapolate the learned statistical regularities outside the training distribution. In this work, we offer a systematic benchmarking of GPT-4, one of the most advanced LLMs available, on three algorithmic tasks characterized by the possibility to control the problem difficulty with two parameters. We compare the performance of GPT-4 with that of its predecessor (GPT-3.5) and with a variant of the Transformer-Encoder architecture recently introduced to solve similar tasks, the Neural Data Router. We find that the deployment of advanced prompting techniques allows GPT-4 to reach superior accuracy on all tasks, demonstrating that state-of-the-art LLMs constitute a very strong baseline also in challenging tasks that require systematic generalization.
Abstract（参考訳）: 大規模言語モデル(LLM)は、さまざまな下流タスクにおいて大量のテキストコーパスで得られた知識を、最小限の(もしあれば)チューニングステップで再利用する能力によって、自然言語処理の分野に革命をもたらした。同時に、LLMには体系的な一般化が欠如していることが繰り返し示されており、学習された統計正則をトレーニング分布の外へ外挿することができる。本研究では、2つのパラメータで問題の難易度を制御できることを特徴とする3つのアルゴリズム的タスクに対して、最も先進的なLCMの1つであるGPT-4の系統的ベンチマークを行う。我々は、GPT-4の性能を前身(GPT-3.5)の性能と比較し、最近導入されたTransformer-Encoderアーキテクチャの変種であるNeural Data Routerと比較した。先進的なプロンプト技術の導入により、GPT-4は全てのタスクにおいてより優れた精度を達成でき、最先端のLCMが体系的な一般化を必要とする課題においても非常に強力なベースラインとなることを示す。

関連論文リスト

MindGPT-4ov: An Enhanced MLLM via a Multi-Stage Post-Training Paradigm [25.7631608456086]
MindGPT-4ovは、データ生産、モデルトレーニング、効率的なデプロイメントにまたがる一般的なポストトレーニングパラダイムである。複数のベンチマークにまたがって、最先端のパフォーマンスを低コストで達成する。 MindGPT-4ovは垂直ドメインタスクにおいて優れたユーザエクスペリエンスを示す。
論文参考訳（メタデータ） (2025-12-02T16:04:11Z)
Experience-Guided Adaptation of Inference-Time Reasoning Strategies [49.954515048847874]
Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。 EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
論文参考訳（メタデータ） (2025-11-14T17:45:28Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
LM4OPT: Unveiling the Potential of Large Language Models in Formulating Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文参考訳（メタデータ） (2024-03-02T23:32:33Z)
Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文参考訳（メタデータ） (2024-02-08T16:23:29Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。完全に自動化されたプロンプトエンジニアリングループに人間はいないより多くの研究と改善が必要です
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? [0.0]
大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。 GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
論文参考訳（メタデータ） (2023-09-29T10:36:04Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。