Fugu-MT 論文翻訳(概要): MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse Worlds

論文の概要: MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse Worlds

arxiv url: http://arxiv.org/abs/2402.01706v1
Date: Thu, 25 Jan 2024 02:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-11 16:43:49.413269
Title: MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse Worlds
Title（参考訳）: MultiVERSE: 異世界における大規模言語モデルのアライメント問題
Authors: Xiaolong Jin, Zhuo Zhang, Xiangyu Zhang
Abstract要約: 大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。本手法は,最先端の脱獄技術よりも有効性と効率性が高いことを示す。
参考スコア（独自算出の注目度）: 20.34720168215854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) alignment aims to ensure that LLM outputs match with human values. Researchers have demonstrated the severity of alignment problems with a large spectrum of jailbreak techniques that can induce LLMs to produce malicious content during conversations. Finding the corresponding jailbreaking prompts usually requires substantial human intelligence or computation resources. In this paper, we report that LLMs have different levels of alignment in various contexts. As such, by systematically constructing many contexts, called worlds, leveraging a Domain Specific Language describing possible worlds (e.g., time, location, characters, actions and languages) and the corresponding compiler, we can cost-effectively expose latent alignment issues. Given the low cost of our method, we are able to conduct a large scale study regarding LLM alignment issues in different worlds. Our results show that our method outperforms the-state-of-the-art jailbreaking techniques on both effectiveness and efficiency. In addition, our results indicate that existing LLMs are extremely vulnerable to nesting worlds and programming language worlds. They imply that existing alignment training focuses on the real-world and is lacking in various (virtual) worlds where LLMs can be exploited.
Abstract（参考訳）: 大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。研究者たちは、会話中に悪意のあるコンテンツを生成するためにLSMを誘導する、大量のジェイルブレイクテクニックによるアライメント問題の深刻さを実証した。対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。本稿では,LLMが様々な文脈で異なるアライメントレベルを持つことを報告する。そのため、worldsと呼ばれる多くのコンテキストを体系的に構築し、可能な世界(例えば、時間、場所、文字、アクション、言語)と対応するコンパイラを記述するドメイン固有言語を活用することで、潜在的なアライメント問題をコスト効率良く露呈することができる。提案手法の低コストを考えると,異なる世界におけるllmアライメント問題に関する大規模研究を行うことができる。その結果,本手法は実効性と効率の両方において最先端のジェイルブレイク技術に勝ることがわかった。さらに,既存のllmはネストする世界やプログラミング言語の世界に対して極めて脆弱であることを示す。彼らは、既存のアライメントトレーニングが現実世界に焦点を当てており、LLMを活用できる様々な(仮想)世界に欠けていることを示唆している。

関連論文リスト

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文参考訳（メタデータ） (2025-06-09T11:09:39Z)
Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。 MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文参考訳（メタデータ） (2025-03-18T17:59:56Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions [7.575628120822444]
LLM+ALは,LLMの自然言語理解能力を,行動言語の記号的推論強度で橋渡しする手法である。 LLM+AL"はChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, o1-previewなど,最先端のLLMと比較する。以上の結果から,LLM+ALは比較的最小限の修正しか行わないが,常に正しい解が得られることが示唆された。
論文参考訳（メタデータ） (2025-01-01T13:20:01Z)
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文参考訳（メタデータ） (2024-10-09T23:37:36Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-17T03:06:32Z)
Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文参考訳（メタデータ） (2024-02-24T14:01:07Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM [23.16217797677075]
我々は、アライメントを破る可能性のある攻撃に対して、ロバストにアライメントされたLLM(RA-LLM)を導入する。 RA-LLMは、最先端の敵のプロンプトと、手作りのジェイルブレイクプロンプトの両方を防御できる。
論文参考訳（メタデータ） (2023-09-18T02:07:22Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。