論文の概要: KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.15043v1
- Date: Fri, 23 Feb 2024 01:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:01:03.563428
- Title: KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models
- Title(参考訳): KIEval: 大規模言語モデルのための知識に基づく対話型評価フレームワーク
- Authors: Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Wei Ye, Jindong Wang,
Xing Xie, Yue Zhang, Shikun Zhang
- Abstract要約: KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
- 参考スコア(独自算出の注目度): 55.8717261687206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation methods for large language models (LLMs) are hindered by
data contamination, leading to inflated assessments of their effectiveness.
Existing strategies, which aim to detect contaminated texts, focus on
quantifying contamination status instead of accurately gauging model
performance. In this paper, we introduce KIEval, a Knowledge-grounded
Interactive Evaluation framework, which incorporates an LLM-powered
"interactor" role for the first time to accomplish a dynamic
contamination-resilient evaluation. Starting with a question in a conventional
LLM benchmark involving domain-specific knowledge, KIEval utilizes dynamically
generated, multi-round, and knowledge-focused dialogues to determine whether a
model's response is merely a recall of benchmark answers or demonstrates a deep
comprehension to apply knowledge in more complex conversations. Extensive
experiments on seven leading LLMs across five datasets validate KIEval's
effectiveness and generalization. We also reveal that data contamination brings
no contribution or even negative effect to models' real-world applicability and
understanding, and existing contamination detection methods for LLMs can only
identify contamination in pre-training but not during supervised fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)の自動評価手法は,データ汚染によって妨げられ,その有効性の評価が膨らむ。
汚染されたテキストの検出を目的とした既存の戦略は、モデル性能を正確に計測するのではなく、汚染状態の定量化に重点を置いている。
本稿では,LLMを用いた対話型評価フレームワークであるKIEvalについて紹介する。
ドメイン固有の知識を含む従来のLLMベンチマークの質問から始め、KIEvalは動的に生成されたマルチラウンド、知識に焦点を当てた対話を利用して、モデルの応答が単にベンチマーク回答のリコールであるかどうかを判断したり、より複雑な会話に知識を適用するための深い理解を示す。
5つのデータセットにわたる7つのLLMの大規模な実験は、KIEvalの有効性と一般化を検証する。
また,データ汚染は実世界の応用性や理解に寄与や悪影響を及ぼさないこと,LLMの既存の汚染検出手法は事前学習時にのみ検出できるが,教師付き微調整中は検出できないことも明らかにした。
関連論文リスト
- Factual Consistency Evaluation of Summarisation in the Era of Large
Language Models [38.8292168447796]
既存の事実整合性メトリクスは、そのパフォーマンス、効率、説明可能性によって制約されます。
大規模言語モデル(LLM)の最近の進歩は,テキスト評価において顕著な可能性を示している。
論文 参考訳(メタデータ) (2024-02-21T12:35:19Z) - DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing
Agents [47.420587592802775]
我々は,大規模言語モデル(LLM)を評価するための心理指標にインスパイアされた動的評価プロトコルを提案する。
MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力に関する心理測定理論に従って新しいものに自動的に変換する。
多面的解析により,基本能力とモデルサイズに対する暗黙的マシュー効果の強い相関が示された。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。