論文の概要: Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing
- arxiv url: http://arxiv.org/abs/2406.14230v1
- Date: Thu, 20 Jun 2024 11:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:01:46.567450
- Title: Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing
- Title(参考訳): バーを高くする - ジェネレーティブ進化テストによる大規模言語モデルの価値の調査
- Authors: Han Jiang, Xiaoyuan Yi, Zhihua Wei, Shu Wang, Xing Xie,
- Abstract要約: 大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
本稿では,LLMの根底にある道徳的基盤を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
- 参考スコア(独自算出の注目度): 39.93490432227601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warning: this paper contains model outputs exhibiting unethical information. Large Language Models (LLMs) have achieved significant breakthroughs, but their generated unethical content poses potential risks. Measuring value alignment of LLMs becomes crucial for their regulation and responsible deployment. Numerous datasets have been constructed to assess social bias, toxicity, and ethics in LLMs, but they suffer from evaluation chronoeffect, that is, as models rapidly evolve, existing data becomes leaked or undemanding, overestimating ever-developing LLMs. To tackle this problem, we propose GETA, a novel generative evolving testing approach that dynamically probes the underlying moral baselines of LLMs. Distinct from previous adaptive testing methods that rely on static datasets with limited difficulty, GETA incorporates an iteratively-updated item generator which infers each LLM's moral boundaries and generates difficulty-tailored testing items, accurately reflecting the true alignment extent. This process theoretically learns a joint distribution of item and model response, with item difficulty and value conformity as latent variables, where the generator co-evolves with the LLM, addressing chronoeffect. We evaluate various popular LLMs with diverse capabilities and demonstrate that GETA can create difficulty-matching testing items and more accurately assess LLMs' values, better consistent with their performance on unseen OOD and i.i.d. items, laying the groundwork for future evaluation paradigms.
- Abstract(参考訳): 警告: 非倫理的な情報を示すモデル出力を含む。
大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
LLMの社会的偏見、毒性、倫理を評価するために、多くのデータセットが構築されているが、モデルが急速に進化するにつれて、既存のデータが漏れたり、不必要な状態に陥り、絶え間なく発展するLLMを過大評価する、という評価のクロノエフェクトに悩まされている。
この問題に対処するために,LLMの根底にある道徳的基線を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
制限のある静的データセットに依存する従来の適応テスト手法とは違い、GAAは反復的に更新されたアイテムジェネレータを組み込んで、各LSMの道徳的境界を推測し、真のアライメント範囲を正確に反映して困難に調整されたテスト項目を生成する。
このプロセスは理論的にアイテムとモデル応答の結合分布を学習し、アイテムの難易度と値の適合性を潜伏変数とし、ジェネレータはLSMと共進化し、クロノエフェクトに対処する。
我々は,多様な能力を持つ多種多様なLLMを評価し,GAAが難解なテスト項目を作成し,LCMの値をより正確に評価し,未確認のOODおよびi.d.項目の性能と整合性を向上し,将来の評価パラダイムの基盤となることを実証した。
関連論文リスト
- DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning [36.66806788879868]
大きな言語モデル(LLM)は前例のない突破口をたどったが、彼らの日常生活への統合は非倫理的コンテンツによって社会的リスクを引き起こす可能性がある。
この研究はモラル・ファンデーション理論を利用した倫理的価値を論じている。
論文 参考訳(メタデータ) (2023-10-17T07:42:40Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。