論文の概要: CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses
- arxiv url: http://arxiv.org/abs/2407.10725v1
- Date: Mon, 15 Jul 2024 13:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.792774
- Title: CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses
- Title(参考訳): CLAVE: LLM生成応答の値を評価するための適応フレームワーク
- Authors: Jing Yao, Xiaoyuan Yi, Xing Xie,
- Abstract要約: CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
- 参考スコア(独自算出の注目度): 34.77031649891843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid progress in Large Language Models (LLMs) poses potential risks such as generating unethical content. Assessing LLMs' values can help expose their misalignment, but relies on reference-free evaluators, e.g., fine-tuned LLMs or close-source ones like GPT-4, to identify values reflected in generated responses. Nevertheless, these evaluators face two challenges in open-ended value evaluation: they should align with changing human value definitions with minimal annotation, against their own bias (adaptability), and detect varying value expressions and scenarios robustly (generalizability). To handle these challenges, we introduce CLAVE, a novel framework which integrates two complementary LLMs, a large one to extract high-level value concepts from a few human labels, leveraging its extensive knowledge and generalizability, and a smaller one fine-tuned on such concepts to better align with human value understanding. This dual-model approach enables calibration with any value systems using <100 human-labeled samples per value type. Then we present ValEval, a comprehensive dataset comprising 13k+ (text,value,label) tuples across diverse domains, covering three major value systems. We benchmark the capabilities of 12+ popular LLM evaluators and analyze their strengths and weaknesses. Our findings reveal that combining fine-tuned small models and prompt-based large ones serves as a superior balance in value evaluation.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、非倫理的コンテンツの生成などの潜在的なリスクを引き起こす。
LLMの値を評価することは、それらのミスアライメントを明らかにするのに役立つが、参照不要な評価器(例えば、微調整されたLCMやGPT-4のようなクローズソースのもの)に依存して、生成された応答に反映された値を特定する。
しかしながら、これらの評価者はオープンエンドな価値評価において2つの課題に直面している。人間の価値定義を最小限のアノテーションで変更し、自身のバイアス(適応性)に対して調整し、さまざまな価値表現とシナリオを堅牢に(一般化性)検出する。
これらの課題に対処するため、CLAVEは2つの補完的なLLMを統合した新しいフレームワークであり、人間のラベルから高レベルの価値概念を抽出し、その広範な知識と一般化性を活用する。
このデュアルモデルアプローチは,<100人のラベル付きサンプルを値タイプ毎に使用して,任意の値システムでキャリブレーションを可能にする。
次に、ValEvalを紹介します。13k+(text,value,label)タプルからなる、さまざまなドメインにわたる包括的なデータセットで、3つの主要なバリューシステムをカバーする。
我々は、12以上のLLM評価器の性能をベンチマークし、その強度と弱点を分析した。
その結果,微調整された小型モデルとプロンプトベースの大規模モデルを組み合わせることで,評価のバランスが良くなることがわかった。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models [14.268555410234804]
大規模言語モデル(LLM)は多様な分野を変革し、人間のプロキシとして影響力を増している。
この研究は、LLMにおける価値オリエンテーションと価値理解を評価するための最初の総合的な心理測定ベンチマークであるValueBenchを紹介した。
論文 参考訳(メタデータ) (2024-06-06T16:14:16Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Assessment of Multimodal Large Language Models in Alignment with Human Values [43.023052912326314]
提案するCh3Efは,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef,Ch3Ef。
Ch3Efデータセットには、hhh原則に基づいた12のドメインと46のタスクを含む、1002人の注釈付きデータサンプルが含まれている。
論文 参考訳(メタデータ) (2024-03-26T16:10:21Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - ValueDCG: Measuring Comprehensive Human Value Understanding Ability of Language Models [10.989615390700113]
LLM(Large Language Models)の真に理解するためには、"know What"と"know why"の両方が必要です。
本稿では,工学的手法を用いて2つの側面を定量的に評価するための総合評価指標であるValueDCGを提案する。
論文 参考訳(メタデータ) (2023-09-30T13:47:55Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。