論文の概要: IterAlign: Iterative Constitutional Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2403.18341v1
- Date: Wed, 27 Mar 2024 08:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:47:17.034083
- Title: IterAlign: Iterative Constitutional Alignment of Large Language Models
- Title(参考訳): IterAlign: 大規模言語モデルの反復的構成アライメント
- Authors: Xiusi Chen, Hongzhi Wen, Sreyashi Nag, Chen Luo, Qingyu Yin, Ruirui Li, Zheng Li, Wei Wang,
- Abstract要約: 我々はIterAlignと呼ばれるデータ駆動型構成発見と自己調整フレームワークを提案する。
IterAlign は LLM の弱点を発見し、強力な LLM を用いて新しい構成を自動的に発見する。
IterAlignは、誠実さ、役に立つこと、無害さ、誠実さをうまく改善し、LLMアライメントを最大13.5%改善する。
- 参考スコア(独自算出の注目度): 20.085095132218257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs), aligning LLMs with human values and societal norms to ensure their reliability and safety has become crucial. Reinforcement learning with human feedback (RLHF) and Constitutional AI (CAI) have been proposed for LLM alignment. However, these methods require either heavy human annotations or explicitly pre-defined constitutions, which are labor-intensive and resource-consuming. To overcome these drawbacks, we study constitution-based LLM alignment and propose a data-driven constitution discovery and self-alignment framework called IterAlign. IterAlign leverages red teaming to unveil the weaknesses of an LLM and automatically discovers new constitutions using a stronger LLM. These constitutions are then used to guide self-correction of the base LLM. Such a constitution discovery pipeline can be run iteratively and automatically to discover new constitutions that specifically target the alignment gaps in the current LLM. Empirical results on several safety benchmark datasets and multiple base LLMs show that IterAlign successfully improves truthfulness, helpfulness, harmlessness and honesty, improving the LLM alignment by up to $13.5\%$ in harmlessness.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、LLMは人間の価値観や社会的規範と整合し、信頼性と安全性が重要になった。
人間のフィードバックによる強化学習(RLHF)とコンスティチューショナルAI(CAI)がLLMアライメントのために提案されている。
しかし、これらの手法には、重厚な人間のアノテーションや、労働集約的でリソースを消費する、明確に定義された構成が必要である。
これらの欠点を克服するために,コンスティチューションに基づくLCMアライメントについて検討し,IterAlignと呼ばれるデータ駆動型コンスティチューション発見と自己調整フレームワークを提案する。
IterAlign は Red Teaming を利用して LLM の弱点を明らかにし、強力な LLM を使用して新しい構成を自動的に発見する。
これらの構成は、ベースLSMの自己補正を導くのに使用される。
このような構成発見パイプラインを反復的かつ自動的に実行して、現在のLCMのアライメントギャップを特にターゲットとする新しい構成を発見することができる。
いくつかの安全ベンチマークデータセットと複数のベースLCMの実証的な結果から、IterAlignは真理性、助け合い性、無害性、誠実性を向上し、LLMアライメントを最大13.5\%向上させることに成功した。
関連論文リスト
- Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation [2.249533649156367]
MUMPSやメインフレームアセンブリといった時代遅れの言語で記述されたレガシーソフトウェアシステムは、効率性、メンテナンス、スタッフリング、セキュリティにおいて課題を提起する。
本稿では,2つのデータセットを用いたレガシコードのための文書生成におけるLCMの利用について検討する。
本稿では,ラインワイドなコードコメントを生成するためのプロンプト戦略を提案し,その完全性,可読性,有用性,幻覚性を評価する。
論文 参考訳(メタデータ) (2024-11-22T14:27:27Z) - RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial
Natural Language Instructions [27.489622263456983]
DeceptPromptは、コードLLMを駆動し、脆弱性のある機能の正しいコードを生成する、逆の自然言語命令を生成するアルゴリズムである。
最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。
論文 参考訳(メタデータ) (2023-12-07T22:19:06Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。