論文の概要: Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language
Models' Alignment
- arxiv url: http://arxiv.org/abs/2308.05374v1
- Date: Thu, 10 Aug 2023 06:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:29:07.050609
- Title: Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language
Models' Alignment
- Title(参考訳): trustworthy llms:大規模言語モデルのアライメント評価のための調査とガイドライン
- Authors: Yang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng
Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, and Hang Li
- Abstract要約: 本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
- 参考スコア(独自算出の注目度): 15.663618713626386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensuring alignment, which refers to making models behave in accordance with
human intentions [1,2], has become a critical task before deploying large
language models (LLMs) in real-world applications. For instance, OpenAI devoted
six months to iteratively aligning GPT-4 before its release [3]. However, a
major challenge faced by practitioners is the lack of clear guidance on
evaluating whether LLM outputs align with social norms, values, and
regulations. This obstacle hinders systematic iteration and deployment of LLMs.
To address this issue, this paper presents a comprehensive survey of key
dimensions that are crucial to consider when assessing LLM trustworthiness. The
survey covers seven major categories of LLM trustworthiness: reliability,
safety, fairness, resistance to misuse, explainability and reasoning, adherence
to social norms, and robustness. Each major category is further divided into
several sub-categories, resulting in a total of 29 sub-categories.
Additionally, a subset of 8 sub-categories is selected for further
investigation, where corresponding measurement studies are designed and
conducted on several widely-used LLMs. The measurement results indicate that,
in general, more aligned models tend to perform better in terms of overall
trustworthiness. However, the effectiveness of alignment varies across the
different trustworthiness categories considered. This highlights the importance
of conducting more fine-grained analyses, testing, and making continuous
improvements on LLM alignment. By shedding light on these key dimensions of LLM
trustworthiness, this paper aims to provide valuable insights and guidance to
practitioners in the field. Understanding and addressing these concerns will be
crucial in achieving reliable and ethically sound deployment of LLMs in various
applications.
- Abstract(参考訳): 人間の意図に従ってモデルが振る舞うこと [1,2] を指すアライメントの確保は、現実世界のアプリケーションに大規模言語モデル(llm)をデプロイする前に重要なタスクとなった。
例えば、OpenAIはリリース前に反復的にGPT-4を調整するために6ヶ月を費やしました [3]。
しかしながら、実践者が直面する大きな課題は、llmアウトプットが社会的規範、価値観、規制に合致するかどうかを評価するための明確なガイダンスの欠如である。
この障害は、LLMの体系的なイテレーションとデプロイを妨げる。
本論では,LLMの信頼性を評価する上で重要となる重要な側面について,包括的に調査する。
調査は、信頼性、安全性、公平性、誤用に対する抵抗、説明可能性と推論、社会的規範への順守、堅牢性という7つの主要なカテゴリーをカバーする。
各主要なカテゴリはさらにいくつかのサブカテゴリに分けられ、合計29のサブカテゴリになる。
さらに、さらなる調査のために8つのサブカテゴリのサブセットが選択され、対応する測定研究が、広く使用されている複数のLLMで設計および実施される。
測定結果は、一般に、より整合したモデルの方が全体的な信頼性の点でより優れた性能を示す傾向があることを示している。
しかしながら、アライメントの有効性は、考慮されるさまざまな信頼性カテゴリによって異なる。
このことは、よりきめ細かい分析、テスト、LLMアライメントの継続的な改善を行うことの重要性を強調している。
本稿では,LLMの信頼性に関するこれらの重要な側面に光を当てることで,現場の実践者に貴重な洞察とガイダンスを提供することを目的とする。
これらの懸念を理解し、対処することは、様々なアプリケーションにおけるLLMの信頼性と倫理的に健全な展開を達成する上で重要である。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。