論文の概要: Self-playing Adversarial Language Game Enhances LLM Reasoning
- arxiv url: http://arxiv.org/abs/2404.10642v2
- Date: Thu, 23 May 2024 06:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:40:24.898709
- Title: Self-playing Adversarial Language Game Enhances LLM Reasoning
- Title(参考訳): 自己演奏型言語ゲームはLLM推論を促進する
- Authors: Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du,
- Abstract要約: 本稿では,大言語モデル (LLM) の自己演奏訓練手順を,Adversarial Taboo と呼ばれる2人対戦型言語ゲームで検討する。
この目標により、我々はいくつかのオープンソースのLCMを選択し、攻撃者として各動作させ、広範囲のターゲットワードのディフェンダーとして自身のコピーでプレイする。
我々は LLM の性能が広範囲の推論ベンチマークで一様に改善されていることを観察した。
- 参考スコア(独自算出の注目度): 28.20484612947417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the self-play training procedure of large language models (LLMs) in a two-player adversarial language game called Adversarial Taboo. In this game, an attacker and a defender communicate around a target word only visible to the attacker. The attacker aims to induce the defender to speak the target word unconsciously, while the defender tries to infer the target word from the attacker's utterances. To win the game, both players should have sufficient knowledge about the target word and high-level reasoning ability to infer and express in this information-reserved conversation. Hence, we are curious about whether LLMs' reasoning ability can be further enhanced by self-play in this adversarial language game (SPAG). With this goal, we select several open-source LLMs and let each act as the attacker and play with a copy of itself as the defender on an extensive range of target words. Through reinforcement learning on the game outcomes, we observe that the LLMs' performances uniformly improve on a broad range of reasoning benchmarks. Furthermore, iteratively adopting this self-play process can continuously promote LLMs' reasoning abilities. The code is at https://github.com/Linear95/SPAG.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) の自己演奏訓練手順を,Adversarial Taboo と呼ばれる2人対戦型言語ゲームで検討する。
このゲームでは、アタッカーとディフェンダーが攻撃者にしか見えないターゲットワードの周りで通信する。
攻撃者は、攻撃者の発話から標的の単語を推測しようとするが、攻撃者は敵の単語を無意識に話すようディフェンダーに誘導する。
ゲームに勝つためには、両プレイヤーは目標語について十分な知識と、この情報保存された会話の中で推論し表現する高レベルの推論能力を持つ必要がある。
したがって,この逆言語ゲーム (SPAG) において, LLM の推論能力が自己プレイによってさらに向上できるかどうかを疑問視している。
この目標により、我々はいくつかのオープンソースのLCMを選択し、攻撃者として各動作させ、広範囲のターゲットワードのディフェンダーとして自身のコピーでプレイする。
ゲーム結果の強化学習を通じて、LLMの性能が幅広い推論ベンチマークで一様に改善されるのを観察する。
さらに、反復的にこの自己再生プロセスを採用することで、LSMの推論能力を継続的に促進することができる。
コードはhttps://github.com/Linear95/SPAGにある。
関連論文リスト
- Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Vocabulary Attack to Hijack Large Language Model Applications [0.0]
大規模言語モデル(LLM)は、ますます多くのアプリケーションを駆動している。
彼らはモデルに機密情報、特定の偽情報、または攻撃的な行動を明らかにすることを望んでいます。
モデル語彙から単語を挿入することで,これらのシステム外へのアプローチを提案する。
対象モデルとは異なるモデルを用いて攻撃を行うことが可能であることを実証した。
論文 参考訳(メタデータ) (2024-04-03T10:54:07Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。