論文の概要: Knowledge-based Consistency Testing of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12830v1
- Date: Wed, 3 Jul 2024 11:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.478319
- Title: Knowledge-based Consistency Testing of Large Language Models
- Title(参考訳): 知識に基づく大規模言語モデルの一貫性テスト
- Authors: Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay,
- Abstract要約: 我々は,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に公開し,測定する。
テストケース構築に知識グラフを活用する自動テストフレームワーク(KONTEST)を提案する。
KONTESTは、意味論的に等価なクエリとテストオラクルの組み合わせによって、LLMの世界の知識の不整合を調査し、測定する。
- 参考スコア(独自算出の注目度): 2.9699290794642366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we systematically expose and measure the inconsistency and knowledge gaps of Large Language Models (LLMs). Specifically, we propose an automated testing framework (called KONTEST) which leverages a knowledge graph to construct test cases. KONTEST probes and measures the inconsistencies in the LLM's knowledge of the world via a combination of semantically-equivalent queries and test oracles (metamorphic or ontological oracle). KONTEST further mitigates knowledge gaps via a weighted LLM model ensemble. Using four state-of-the-art LLMs (Falcon, Gemini, GPT3.5, and Llama2), we show that KONTEST generates 19.2% error inducing inputs (1917 errors from 9983 test inputs). It also reveals a 16.5% knowledge gap across all tested LLMs. KONTEST's mitigation method reduces LLM knowledge gap by 32.48%. Our ablation study further shows that GPT3.5 is not suitable for knowledge-based consistency testing because it is only 60%-68% effective in knowledge construction.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に明らかにし,評価する。
具体的には、知識グラフを利用してテストケースを構築する自動テストフレームワーク(KONTEST)を提案する。
KONTESTは、意味論的に等価なクエリとテストオラクル(メタモルフィックまたはオントロジ的オラクル)の組み合わせによって、LLMの世界の知識の不整合を調査し、測定する。
KONTESTはLLMモデルのアンサンブルによって知識ギャップを緩和する。
最先端の4つのLLM(Falcon, Gemini, GPT3.5, Llama2)を用いて、KoNTESTは19.2%のエラーを発生させる(9983の試験入力から1917のエラーを発生させる)。
また、全試験LLMの16.5%の知識ギャップも明らかにしている。
KONTEST の緩和手法は LLM の知識ギャップを 32.48% 削減する。
さらに, GPT3.5は知識構築において60%-68%しか有効ではないため, 知識ベース一貫性試験には適さないことを示した。
関連論文リスト
- Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration [39.603649838876294]
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
保留集合上での自己回帰と過度信頼の失敗により、我々は2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-01T06:11:49Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。