論文の概要: ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation
- arxiv url: http://arxiv.org/abs/2405.14125v3
- Date: Thu, 07 Nov 2024 12:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:52.318145
- Title: ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation
- Title(参考訳): ALI-Agent:エージェントによる評価によるLLMと人的価値のアライメントの評価
- Authors: Jingnan Zheng, Han Wang, An Zhang, Tai D. Nguyen, Jun Sun, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
- 参考スコア(独自算出の注目度): 48.54271457765236
- License:
- Abstract: Large Language Models (LLMs) can elicit unintended and even harmful content when misaligned with human values, posing severe risks to users and society. To mitigate these risks, current evaluation benchmarks predominantly employ expert-designed contextual scenarios to assess how well LLMs align with human values. However, the labor-intensive nature of these benchmarks limits their test scope, hindering their ability to generalize to the extensive variety of open-world use cases and identify rare but crucial long-tail risks. Additionally, these static tests fail to adapt to the rapid evolution of LLMs, making it hard to evaluate timely alignment issues. To address these challenges, we propose ALI-Agent, an evaluation framework that leverages the autonomous abilities of LLM-powered agents to conduct in-depth and adaptive alignment assessments. ALI-Agent operates through two principal stages: Emulation and Refinement. During the Emulation stage, ALI-Agent automates the generation of realistic test scenarios. In the Refinement stage, it iteratively refines the scenarios to probe long-tail risks. Specifically, ALI-Agent incorporates a memory module to guide test scenario generation, a tool-using module to reduce human labor in tasks such as evaluating feedback from target LLMs, and an action module to refine tests. Extensive experiments across three aspects of human values--stereotypes, morality, and legality--demonstrate that ALI-Agent, as a general evaluation framework, effectively identifies model misalignment. Systematic analysis also validates that the generated test scenarios represent meaningful use cases, as well as integrate enhanced measures to probe long-tail risks. Our code is available at https://github.com/SophieZheng998/ALI-Agent.git
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図せず有害なコンテンツも引き起こし、ユーザや社会に深刻なリスクを及ぼす可能性がある。
これらのリスクを軽減するため、現在の評価ベンチマークでは、専門家が設計したコンテキストシナリオを使用して、LLMが人的価値とどの程度うまく一致しているかを評価する。
しかし、これらのベンチマークの労働集約性はテスト範囲を制限し、様々なオープンワールドのユースケースに一般化し、稀だが重要な長期的リスクを特定する能力を妨げている。
さらに、これらの静的テストはLLMの急速な進化に対応できず、タイムリーなアライメントの問題を評価することは困難である。
これらの課題に対処するために, LLM エージェントの自律能力を活用し, 奥行き及び適応アライメントアセスメントアセスメントを行う評価フレームワーク ALI-Agent を提案する。
ALI-Agentはエミュレーションとリファインメントの2つの主要な段階を通している。
Emulationの段階では、ALI-Agentは現実的なテストシナリオの生成を自動化する。
リファインメント段階では、長期的リスクを調査するためにシナリオを反復的に洗練します。
具体的には、ALI-Agentには、テストシナリオ生成をガイドするメモリモジュール、目標のLSMからのフィードバックの評価などのタスクにおける人的労力を削減するツール使用モジュール、テストを洗練するためのアクションモジュールが組み込まれている。
ALI-Agentは、一般的な評価の枠組みとして、モデルミスアライメントを効果的に識別する。
システム分析はまた、生成されたテストシナリオが意味のあるユースケースを表すこと、および長期的リスクを調査するための強化された措置を統合することを検証する。
私たちのコードはhttps://github.com/SophieZheng998/ALI-Agent.gitで利用可能です。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Generative LLM Powered Conversational AI Application for Personalized Risk Assessment: A Case Study in COVID-19 [6.367429891237191]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な能力を示している。
本研究は,ヒトとAIの会話をストリーミングすることで,LSMを用いた新たな疾病リスク評価手法を示す。
論文 参考訳(メタデータ) (2024-09-23T13:55:13Z) - Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.93490432227601]
大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
本稿では,LLMの根底にある道徳的基盤を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:51:00Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。