Fugu-MT 論文翻訳(概要): Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code

論文の概要: Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code

arxiv url: http://arxiv.org/abs/2312.14856v2
Date: Sun, 14 Jan 2024 18:58:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 21:18:48.275532
Title: Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code
Title（参考訳）: 乱流: コードのための命令調整型大規模言語モデルの体系的および自動テスト
Authors: Shahin Honarvar, Mark van der Wilk, Alastair Donaldson
Abstract要約: 本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
参考スコア（独自算出の注目度）: 12.58098809948832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a method for systematically evaluating the correctness and robustness of instruction-tuned large language models (LLMs) for code generation via a new benchmark, Turbulence. Turbulence consists of a large set of natural language $\textit{question templates}$, each of which is a programming problem, parameterised so that it can be asked in many different forms. Each question template has an associated $\textit{test oracle}$ that judges whether a code solution returned by an LLM is correct. Thus, from a single question template, it is possible to ask an LLM a $\textit{neighbourhood}$ of very similar programming questions, and assess the correctness of the result returned for each question. This allows gaps in an LLM's code generation abilities to be identified, including $\textit{anomalies}$ where the LLM correctly solves $\textit{almost all}$ questions in a neighbourhood but fails for particular parameter instantiations. We present experiments against five LLMs from OpenAI, Cohere and Meta, each at two temperature configurations. Our findings show that, across the board, Turbulence is able to reveal gaps in LLM reasoning ability. This goes beyond merely highlighting that LLMs sometimes produce wrong code (which is no surprise): by systematically identifying cases where LLMs are able to solve some problems in a neighbourhood but do not manage to generalise to solve the whole neighbourhood, our method is effective at highlighting $\textit{robustness}$ issues. We present data and examples that shed light on the kinds of mistakes that LLMs make when they return incorrect code results.
Abstract（参考訳）: 本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を体系的に評価する手法を提案する。 turbulence は、自然言語 $\textit{question templates}$ の大規模なセットで構成されており、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。各質問テンプレートには関連する$\textit{test oracle}$があり、llmによって返されるコードソリューションが正しいかどうかを判断する。したがって、単一の質問テンプレートから LLM に $\textit{neighbourhood}$ と非常に似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。例えば、$\textit{anomalies}$, LLMが近隣で$\textit{almost all}$を正しく解決するが、特定のパラメータのインスタンス化には失敗する。我々は,OpenAI,Cohere,Metaの5つのLLMに対して,それぞれ2つの温度構成で実験を行った。以上の結果から, 乱流はLLM推論能力のギャップを明らかにすることができることがわかった。 LLMが近隣の問題を解決することができるが、近隣全体の問題を解決するために一般化することができないケースを体系的に識別することによって、我々の手法は$\textit{robustness}$問題をハイライトするのに効果的である。我々は、llmが間違ったコード結果を返す際に犯す誤りの種類に光を当てるデータと例を示します。

関連論文リスト

Introducing HALC: A general pipeline for finding optimal prompting strategies for automated coding with LLMs in the computational social sciences [0.0]
本稿では,任意のコーディングタスクやモデルに対して,最適プロンプトの体系的かつ信頼性の高い構築を可能にするHALC$-$a汎用パイプラインを提案する。本稿は,異なるプロンプト戦略の有効性,重要な影響要因,および各コーディングタスクとモデルに対する信頼性の高いプロンプトの同定に関する知見を提供する。
論文参考訳（メタデータ） (2025-07-29T14:10:31Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Capturing Sparks of Abstraction for the ARC Challenge [0.10878040851637999]
商用のLarge Language Models(LLM)でさえ、多くの問題を"理解"するのに苦労しています。 LLM出力から'Sparks of Abstraction'を抽出できることを実証する。 arc-dsl-llm DSLフレームワークとGemini LLM生成データの両方がオープンソースになっている。
論文参考訳（メタデータ） (2024-11-17T23:40:00Z)
Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。 LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文参考訳（メタデータ） (2024-10-30T17:02:54Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文参考訳（メタデータ） (2024-04-16T08:28:16Z)
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文参考訳（メタデータ） (2024-04-03T17:51:18Z)
LPML: LLM-Prompting Markup Language for Mathematical Reasoning [8.995617701116142]
外部ツール(Python REPL)とChain-of-Thought(CoT)メソッドを統合する新しいフレームワークを提案する。提案手法は,ゼロショットプロンプトのみを用いて,LLMがマークアップ言語を記述し,高度な数学的推論を行うことを可能にする。
論文参考訳（メタデータ） (2023-09-21T02:46:20Z)
Question Answering as Programming for Solving Time-Sensitive Questions [84.07553016489769]
質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-23T16:35:16Z)
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。 LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文参考訳（メタデータ） (2023-05-22T14:23:46Z)
LLM+P: Empowering Large Language Models with Optimal Planning Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文参考訳（メタデータ） (2023-04-22T20:34:03Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。