Fugu-MT 論文翻訳(概要): Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

論文の概要: Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

arxiv url: http://arxiv.org/abs/2311.07587v2
Date: Wed, 15 Nov 2023 19:49:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 18:34:13.147673
Title: Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?
Title（参考訳）: Frontier Language Models is Robust to Adversarial Arithmetic, or "2+2=5?
Authors: C. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein
Abstract要約: 言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
参考スコア（独自算出の注目度）: 88.59136033348378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce and study the problem of adversarial arithmetic, which provides a simple yet challenging testbed for language model alignment. This problem is comprised of arithmetic questions posed in natural language, with an arbitrary adversarial string inserted before the question is complete. Even in the simple setting of 1-digit addition problems, it is easy to find adversarial prompts that make all tested models (including PaLM2, GPT4, Claude2) misbehave, and even to steer models to a particular wrong answer. We additionally provide a simple algorithm for finding successful attacks by querying those same models, which we name "prompt inversion rejection sampling" (PIRS). We finally show that models can be partially hardened against these attacks via reinforcement learning and via agentic constitutional loops. However, we were not able to make a language model fully robust against adversarial arithmetic attacks.
Abstract（参考訳）: 本稿では,言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を紹介し,研究する。この問題は自然言語で表される算術問題からなり、質問が完了する前に任意の逆文字列が挿入される。 1桁の加算問題の単純な設定であっても、すべてのテストモデル(palm2、gpt4、claude2)を誤用し、特定の間違った答えにモデルを操る敵のプロンプトを見つけることは容易である。さらに,同じモデルにクエリすることで,攻撃を成功させる簡単なアルゴリズムを提供し,これを"prompt inversion reject sampling"(pirs)と呼ぶ。最後に,強化学習やエージェント的コンスティチューションループを通じて,モデルがこれらの攻撃に対して部分的に強化されることを示す。しかし,言語モデルが逆算術攻撃に対して十分に頑健になることはできなかった。

関連論文リスト

Self-Questioning Language Models [51.75087358141567]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳（メタデータ） (2025-08-05T17:51:33Z)
Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Stream of Search (SoS): Learning to Search in Language [29.841835308845948]
本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
論文参考訳（メタデータ） (2024-04-01T06:50:52Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文参考訳（メタデータ） (2023-11-27T15:38:17Z)
Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文参考訳（メタデータ） (2023-06-26T17:18:44Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
TASA: Deceiving Question Answering Models by Twin Answer Sentences Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。 TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文参考訳（メタデータ） (2022-10-27T07:16:30Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。本手法は,事前学習した言語モデルを微調整して,逆例を生成する。提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文参考訳（メタデータ） (2021-07-23T14:43:13Z)
Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文参考訳（メタデータ） (2020-10-14T04:56:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。