論文の概要: Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency
- arxiv url: http://arxiv.org/abs/2309.17272v1
- Date: Fri, 29 Sep 2023 14:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:21:54.054323
- Title: Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency
- Title(参考訳): マルチパースペクティブ・セルフコンシスタンスによるコーディングにおける大規模言語モデルの拡張
- Authors: Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan
- Abstract要約: 大規模言語モデル(LLM)のためのMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
MPSCは、複数の視点からの出力間での一貫性と、単一の視点内での一貫性の両方を取り入れている。
我々のフレームワークは、様々な人気のあるベンチマークのパフォーマンスを大幅に向上させます。
- 参考スコア(独自算出の注目度): 137.29711672412952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable ability in textual
generation. However, in complex reasoning tasks such as code generation,
generating the correct answer in a single attempt remains a formidable
challenge for LLMs. Previous research has explored solutions by aggregating
multiple outputs, leveraging the consistency among them. However, none of them
have comprehensively captured this consistency from different perspectives. In
this paper, we propose the Multi-Perspective Self-Consistency (MPSC) framework,
a novel decoding strategy for LLM that incorporates both inter-consistency
across outputs from multiple perspectives and intra-consistency within a single
perspective. Specifically, we ask LLMs to sample multiple diverse outputs from
various perspectives for a given query and then construct a multipartite graph
based on them. With two predefined measures of consistency, we embed both
inter- and intra-consistency information into the graph. The optimal choice is
then determined based on consistency analysis in the graph. We conduct
comprehensive evaluation on the code generation task by introducing solution,
specification and test case as three perspectives. We leverage a code
interpreter to quantitatively measure the inter-consistency and propose several
intra-consistency measure functions. Our MPSC framework significantly boosts
the performance on various popular benchmarks, including HumanEval (+17.60%),
HumanEval Plus (+17.61%), MBPP (+6.50%) and CodeContests (+11.82%) in Pass@1,
when compared to original outputs generated from ChatGPT, and even surpassing
GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成において顕著な能力を示した。
しかし、コード生成のような複雑な推論タスクでは、単一の試行で正しい答えを生成することはllmにとって大きな課題である。
これまでの研究では、複数のアウトプットを集約し、それらの一貫性を活用してソリューションを調査してきた。
しかし、どれも異なる観点からこの一貫性を包括的に捉えていない。
本稿では,複数視点からの出力間の整合性と単一視点での整合性の両方を組み込んだ,LLMの新たな復号戦略であるMPSCフレームワークを提案する。
具体的には、LLMに対して、与えられたクエリに対して様々な視点から複数の多様な出力をサンプリングし、それらに基づいて多部グラフを構築する。
2つの事前定義された一貫性尺度を用いて、一貫性情報と一貫性情報の両方をグラフに埋め込む。
最適な選択は、グラフの一貫性解析に基づいて決定される。
ソリューション,仕様,テストケースを3つの視点から導入し,コード生成タスクの包括的評価を行う。
コードインタプリタを利用して、一貫性を定量的に測定し、一貫性内測定関数を提案する。
当社のMPSCフレームワークは、ChatGPTから生成されたオリジナル出力と比較して、Pass@1のHumanEval(+17.60%)、HumanEval Plus(+17.61%)、MBPP(+6.50%)、CodeContests(+11.82%)など、さまざまな人気のあるベンチマークのパフォーマンスを大幅に向上させています。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。
挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。
我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文 参考訳(メタデータ) (2023-10-16T04:11:19Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。