論文の概要: Measuring Reliability of Large Language Models through Semantic
Consistency
- arxiv url: http://arxiv.org/abs/2211.05853v1
- Date: Thu, 10 Nov 2022 20:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:28:48.075425
- Title: Measuring Reliability of Large Language Models through Semantic
Consistency
- Title(参考訳): 意味的一貫性による大規模言語モデルの信頼性の測定
- Authors: Harsh Raj, Domenic Rosati, Subhabrata Majumdar
- Abstract要約: 我々は,オープンなテキスト出力の比較を可能にする意味的一貫性の尺度を開発した。
我々は,この整合度尺度のいくつかのバージョンを実装し,パラフレーズ化した質問に対して,複数のPLMの性能を評価する。
- 参考スコア(独自算出の注目度): 3.4990427823966828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large pretrained language models (PLMs) demonstrate incredible fluency
and performance on many natural language tasks, recent work has shown that
well-performing PLMs are very sensitive to what prompts are feed into them.
Even when prompts are semantically identical, language models may give very
different answers. When considering safe and trustworthy deployments of PLMs we
would like their outputs to be consistent under prompts that mean the same
thing or convey the same intent. While some work has looked into how
state-of-the-art PLMs address this need, they have been limited to only
evaluating lexical equality of single- or multi-word answers and do not address
consistency of generative text sequences. In order to understand consistency of
PLMs under text generation settings, we develop a measure of semantic
consistency that allows the comparison of open-ended text outputs. We implement
several versions of this consistency metric to evaluate the performance of a
number of PLMs on paraphrased versions of questions in the TruthfulQA dataset,
we find that our proposed metrics are considerably more consistent than
traditional metrics embodying lexical consistency, and also correlate with
human evaluation of output consistency to a higher degree.
- Abstract(参考訳): 大規模事前学習型言語モデル(PLM)は、多くの自然言語タスクにおいて驚くほどの頻度と性能を示すが、近年の研究により、良好な性能のPLMは、それらへのプロンプトの供給に非常に敏感であることが示されている。
プロンプトが意味的に同一である場合でも、言語モデルは全く異なる答えを与える。
PLMの安全で信頼性の高いデプロイメントを検討する場合、アウトプットを同じ意味のプロンプトの下で一貫性のあるものにし、同じ意図を伝えたいと思っています。
最先端のPLMがこのニーズにどう対処するかを考察する研究もあるが、それらは単一の単語や複数単語の回答の語彙的等式のみの評価に限られており、生成的テキストシーケンスの整合性には対処していない。
テキスト生成環境下でのPLMの一貫性を理解するため,オープンなテキスト出力の比較を可能にする意味的一貫性尺度を開発した。
我々は,この整合性尺度のいくつかのバージョンを実装し,TruthfulQAデータセットにおける質問のパラフレーズ化バージョンにおける多くのPLMの性能評価を行い,提案手法は語彙整合性を具現化した従来の指標よりもかなり整合性があり,出力整合性の人間による評価と高次評価との相関性も見出した。
関連論文リスト
- AXCEL: Automated eXplainable Consistency Evaluation using LLMs [6.382787013075262]
大規模言語モデル(LLM)は、産業と学術の両方で様々なタスクに広く使われている。
本研究は,LLM(AXCEL)を用いた自動eXplainable Consistency評価を導入する。
AXCELは、詳細な推論を提供することで、一貫性スコアの説明を提供するプロンプトベースの一貫性メトリクスである。
論文 参考訳(メタデータ) (2024-09-25T14:45:52Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。