Fugu-MT 論文翻訳(概要): Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency

論文の概要: Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency

arxiv url: http://arxiv.org/abs/2309.17272v2
Date: Wed, 21 Feb 2024 04:32:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 20:14:07.125203
Title: Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency
Title（参考訳）: マルチパースペクティブ・セルフコンシスタンスによるコーディングにおける大規模言語モデルの拡張
Authors: Baizhou Huang, Shuai Lu, Weizhu Chen, Xiaojun Wan, Nan Duan
Abstract要約: 大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
参考スコア（独自算出の注目度）: 137.29711672412952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have exhibited remarkable ability in code generation. However, generating the correct solution in a single attempt still remains a challenge. Prior works utilize verification properties in software engineering to verify and re-rank solutions in a majority voting manner. But the assumption behind them that generated verification properties have better qualities than solutions may not always hold. In this paper, we treat them equally as different perspectives of LLMs' reasoning processes. We propose the Multi-Perspective Self-Consistency (MPSC) framework incorporating both inter- and intra-consistency across outputs from multiple perspectives. Specifically, we prompt LLMs to generate diverse outputs from three perspectives, Solution, Specification and Test case, constructing a 3-partite graph. With two measure functions of consistency, we embed both inter- and intra-consistency information into the graph. The optimal choice of solutions is then determined based on analysis in the graph. MPSC significantly boosts performance of foundation models (ChatGPT in this paper) on various benchmarks, including HumanEval (+15.91%), MBPP (+6.43%) and CodeContests (+9.37%), even surpassing GPT-4.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。以前の作業では、ソフトウェアエンジニアリングの検証プロパティを使用して、多数決的な方法でソリューションの検証と再選を行っている。しかし、生成した検証プロパティがソリューションよりも優れた品質を持つという彼らの背後にある仮定は、必ずしも成り立つとは限らない。本稿では,llmsの推論過程の異なる視点として等しく扱う。複数視点からの出力の相互および内部整合性を考慮したMPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。具体的には、llmに対して、ソリューション、仕様、テストケースという3つの視点から、さまざまなアウトプットを生成するように促します。一貫性の2つの測度関数により、一貫性情報と一貫性情報の両方をグラフに埋め込む。解の最適選択は、そのグラフの分析に基づいて決定される。 MPSCは、HumanEval (+15.91%)、MBPP (+6.43%)、CodeContests (+9.37%)など、GPT-4を超える様々なベンチマークで基礎モデル(ChatGPT)の性能を大幅に向上させる。

関連論文リスト

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文参考訳（メタデータ） (2024-09-26T16:31:50Z)
Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文参考訳（メタデータ） (2024-08-05T03:05:02Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。相対的整合性スコアによる整合性向上の可能性を分析する。
論文参考訳（メタデータ） (2024-06-18T17:25:47Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文参考訳（メタデータ） (2023-10-16T04:11:19Z)
Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。 GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文参考訳（メタデータ） (2023-08-22T06:32:07Z)
Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。 GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文参考訳（メタデータ） (2023-05-23T17:25:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。