論文の概要: Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency
- arxiv url: http://arxiv.org/abs/2309.17272v2
- Date: Wed, 21 Feb 2024 04:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:14:07.125203
- Title: Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency
- Title(参考訳): マルチパースペクティブ・セルフコンシスタンスによるコーディングにおける大規模言語モデルの拡張
- Authors: Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 137.29711672412952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable ability in code
generation. However, generating the correct solution in a single attempt still
remains a challenge. Prior works utilize verification properties in software
engineering to verify and re-rank solutions in a majority voting manner. But
the assumption behind them that generated verification properties have better
qualities than solutions may not always hold. In this paper, we treat them
equally as different perspectives of LLMs' reasoning processes. We propose the
Multi-Perspective Self-Consistency (MPSC) framework incorporating both inter-
and intra-consistency across outputs from multiple perspectives. Specifically,
we prompt LLMs to generate diverse outputs from three perspectives, Solution,
Specification and Test case, constructing a 3-partite graph. With two measure
functions of consistency, we embed both inter- and intra-consistency
information into the graph. The optimal choice of solutions is then determined
based on analysis in the graph. MPSC significantly boosts performance of
foundation models (ChatGPT in this paper) on various benchmarks, including
HumanEval (+15.91%), MBPP (+6.43%) and CodeContests (+9.37%), even surpassing
GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
以前の作業では、ソフトウェアエンジニアリングの検証プロパティを使用して、多数決的な方法でソリューションの検証と再選を行っている。
しかし、生成した検証プロパティがソリューションよりも優れた品質を持つという彼らの背後にある仮定は、必ずしも成り立つとは限らない。
本稿では,llmsの推論過程の異なる視点として等しく扱う。
複数視点からの出力の相互および内部整合性を考慮したMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
具体的には、llmに対して、ソリューション、仕様、テストケースという3つの視点から、さまざまなアウトプットを生成するように促します。
一貫性の2つの測度関数により、一貫性情報と一貫性情報の両方をグラフに埋め込む。
解の最適選択は、そのグラフの分析に基づいて決定される。
MPSCは、HumanEval (+15.91%)、MBPP (+6.43%)、CodeContests (+9.37%)など、GPT-4を超える様々なベンチマークで基礎モデル(ChatGPT)の性能を大幅に向上させる。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Exploring the Limitations of Graph Reasoning in Large Language Models [5.256237513030104]
グラフ推論の問題から,5つの異なる大言語モデルに対するグラフ推論の深さを検証した。
グラフのサイズやkショットプロンプトの形式など,さまざまな設定におけるモデルの性能を解析する。
PathCompareと呼ばれる新しいプロンプト技術を提案し、標準プロンプトとCoTと比較してLCMの性能が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-02-02T09:45:33Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。