論文の概要: Beyond Accuracy: Evaluating Self-Consistency of Code Large Language
Models with IdentityChain
- arxiv url: http://arxiv.org/abs/2310.14053v1
- Date: Sat, 21 Oct 2023 16:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:13:21.374180
- Title: Beyond Accuracy: Evaluating Self-Consistency of Code Large Language
Models with IdentityChain
- Title(参考訳): 正確性を超えて: Identity Chainを用いたコード大言語モデルの自己整合性を評価する
- Authors: Marcus J. Min, Yangruibo Ding, Luca Buratti, Saurabh Pujar, Gail
Kaiser, Suman Jana, Baishakhi Ray
- Abstract要約: 本稿では、コード大言語モデル(Code LLM)の自己整合性を定義する。
次に、モデルの自己整合性と一般的な精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。
- 参考スコア(独自算出の注目度): 28.71742839604069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code Large Language Models (Code LLMs) are being increasingly employed in
real-life applications, so evaluating them is critical. While the general
accuracy of Code LLMs on individual tasks has been extensively evaluated, their
self-consistency across different tasks is overlooked. Intuitively, a
trustworthy model should be self-consistent when generating natural language
specifications for its own code and generating code for its own specifications.
Failure to preserve self-consistency reveals a lack of understanding of the
shared semantics underlying natural language and programming language, and
therefore undermines the trustworthiness of a model. In this paper, we first
formally define the self-consistency of Code LLMs and then design a framework,
IdentityChain, which effectively and efficiently evaluates the self-consistency
and general accuracy of a model at the same time. We study eleven Code LLMs and
show that they fail to preserve self-consistency, which is indeed a distinct
aspect from general accuracy. Furthermore, we show that IdentityChain can be
used as a model debugging tool to expose weaknesses of Code LLMs by
demonstrating three major weaknesses that we identify in current models using
IdentityChain. Our code is available at
https://github.com/marcusm117/IdentityChain.
- Abstract(参考訳): Code Large Language Models (Code LLMs)は、現実のアプリケーションにますます採用されているため、それらを評価することが重要である。
個々のタスクに対するコードLLMの一般的な精度は広く評価されているが、それらのタスク間の自己整合性は見過ごされている。
直感的には、信頼できるモデルは、自身のコードで自然言語仕様を生成し、自身の仕様のためにコードを生成する場合に自己一貫性を持つべきである。
自己整合性を維持することの失敗は、自然言語とプログラミング言語の基礎となる共有意味論の理解の欠如を示し、したがってモデルの信頼性を損なう。
本稿では、まず、コードLLMの自己整合性を正式に定義し、その上で、モデルの自己整合性と一般精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。
我々は,11個のコードLLMを研究し,自己整合性を保たないことを示す。
さらに、IdentityChainをモデルデバッギングツールとして使用して、IdentityChainを使用して現在のモデルで認識されている3つの大きな弱点を示すことで、コードLLMの弱点を明らかにすることができることを示す。
私たちのコードはhttps://github.com/marcusm117/identitychainで利用可能です。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Learning to Decode Collaboratively with Multiple Language Models [40.031526453155415]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via
Self-Evaluation [75.01017649868614]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。