論文の概要: Beyond Accuracy: Evaluating Self-Consistency of Code Large Language
Models with IdentityChain
- arxiv url: http://arxiv.org/abs/2310.14053v1
- Date: Sat, 21 Oct 2023 16:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:13:21.374180
- Title: Beyond Accuracy: Evaluating Self-Consistency of Code Large Language
Models with IdentityChain
- Title(参考訳): 正確性を超えて: Identity Chainを用いたコード大言語モデルの自己整合性を評価する
- Authors: Marcus J. Min, Yangruibo Ding, Luca Buratti, Saurabh Pujar, Gail
Kaiser, Suman Jana, Baishakhi Ray
- Abstract要約: 本稿では、コード大言語モデル(Code LLM)の自己整合性を定義する。
次に、モデルの自己整合性と一般的な精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。
- 参考スコア(独自算出の注目度): 28.71742839604069
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code Large Language Models (Code LLMs) are being increasingly employed in
real-life applications, so evaluating them is critical. While the general
accuracy of Code LLMs on individual tasks has been extensively evaluated, their
self-consistency across different tasks is overlooked. Intuitively, a
trustworthy model should be self-consistent when generating natural language
specifications for its own code and generating code for its own specifications.
Failure to preserve self-consistency reveals a lack of understanding of the
shared semantics underlying natural language and programming language, and
therefore undermines the trustworthiness of a model. In this paper, we first
formally define the self-consistency of Code LLMs and then design a framework,
IdentityChain, which effectively and efficiently evaluates the self-consistency
and general accuracy of a model at the same time. We study eleven Code LLMs and
show that they fail to preserve self-consistency, which is indeed a distinct
aspect from general accuracy. Furthermore, we show that IdentityChain can be
used as a model debugging tool to expose weaknesses of Code LLMs by
demonstrating three major weaknesses that we identify in current models using
IdentityChain. Our code is available at
https://github.com/marcusm117/IdentityChain.
- Abstract(参考訳): Code Large Language Models (Code LLMs)は、現実のアプリケーションにますます採用されているため、それらを評価することが重要である。
個々のタスクに対するコードLLMの一般的な精度は広く評価されているが、それらのタスク間の自己整合性は見過ごされている。
直感的には、信頼できるモデルは、自身のコードで自然言語仕様を生成し、自身の仕様のためにコードを生成する場合に自己一貫性を持つべきである。
自己整合性を維持することの失敗は、自然言語とプログラミング言語の基礎となる共有意味論の理解の欠如を示し、したがってモデルの信頼性を損なう。
本稿では、まず、コードLLMの自己整合性を正式に定義し、その上で、モデルの自己整合性と一般精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。
我々は,11個のコードLLMを研究し,自己整合性を保たないことを示す。
さらに、IdentityChainをモデルデバッギングツールとして使用して、IdentityChainを使用して現在のモデルで認識されている3つの大きな弱点を示すことで、コードLLMの弱点を明らかにすることができることを示す。
私たちのコードはhttps://github.com/marcusm117/identitychainで利用可能です。
関連論文リスト
- To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - Learning from Natural Language Explanations for Generalizable Entity Matching [19.978468744557173]
バイナリ分類とは対照的に、条件生成タスクとしてエンティティマッチングを再キャストする。
これにより、LLM推論を自然言語による説明を通じて、より小さなエンティティマッチングモデルに分割することが可能になる。
論文 参考訳(メタデータ) (2024-06-13T17:08:58Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。