論文の概要: MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse
Worlds
- arxiv url: http://arxiv.org/abs/2402.01706v1
- Date: Thu, 25 Jan 2024 02:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:43:49.413269
- Title: MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse
Worlds
- Title(参考訳): MultiVERSE: 異世界における大規模言語モデルのアライメント問題
- Authors: Xiaolong Jin, Zhuo Zhang, Xiangyu Zhang
- Abstract要約: 大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。
対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。
本手法は,最先端の脱獄技術よりも有効性と効率性が高いことを示す。
- 参考スコア(独自算出の注目度): 20.34720168215854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) alignment aims to ensure that LLM outputs match
with human values. Researchers have demonstrated the severity of alignment
problems with a large spectrum of jailbreak techniques that can induce LLMs to
produce malicious content during conversations. Finding the corresponding
jailbreaking prompts usually requires substantial human intelligence or
computation resources. In this paper, we report that LLMs have different levels
of alignment in various contexts. As such, by systematically constructing many
contexts, called worlds, leveraging a Domain Specific Language describing
possible worlds (e.g., time, location, characters, actions and languages) and
the corresponding compiler, we can cost-effectively expose latent alignment
issues. Given the low cost of our method, we are able to conduct a large scale
study regarding LLM alignment issues in different worlds. Our results show that
our method outperforms the-state-of-the-art jailbreaking techniques on both
effectiveness and efficiency. In addition, our results indicate that existing
LLMs are extremely vulnerable to nesting worlds and programming language
worlds. They imply that existing alignment training focuses on the real-world
and is lacking in various (virtual) worlds where LLMs can be exploited.
- Abstract(参考訳): 大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。
研究者たちは、会話中に悪意のあるコンテンツを生成するためにLSMを誘導する、大量のジェイルブレイクテクニックによるアライメント問題の深刻さを実証した。
対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。
本稿では,LLMが様々な文脈で異なるアライメントレベルを持つことを報告する。
そのため、worldsと呼ばれる多くのコンテキストを体系的に構築し、可能な世界(例えば、時間、場所、文字、アクション、言語)と対応するコンパイラを記述するドメイン固有言語を活用することで、潜在的なアライメント問題をコスト効率良く露呈することができる。
提案手法の低コストを考えると,異なる世界におけるllmアライメント問題に関する大規模研究を行うことができる。
その結果,本手法は実効性と効率の両方において最先端のジェイルブレイク技術に勝ることがわかった。
さらに,既存のllmはネストする世界やプログラミング言語の世界に対して極めて脆弱であることを示す。
彼らは、既存のアライメントトレーニングが現実世界に焦点を当てており、LLMを活用できる様々な(仮想)世界に欠けていることを示唆している。
関連論文リスト
- Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [25.303015480101447]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。
RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文 参考訳(メタデータ) (2023-09-18T02:07:22Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Translating Natural Language to Planning Goals with Large-Language
Models [19.738395237639136]
近年の大規模言語モデル(LLM)は,様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々の中心的な問題は、LLMが自然言語で指定された目標を構造化された計画言語に翻訳できるかどうかである。
GPT 3.5 変種に対する実験結果から,LCM は計画よりも翻訳に適していることが示された。
論文 参考訳(メタデータ) (2023-02-10T09:17:52Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。