論文の概要: LLM-Resistant Math Word Problem Generation via Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2402.17916v1
- Date: Tue, 27 Feb 2024 22:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:52:39.999424
- Title: LLM-Resistant Math Word Problem Generation via Adversarial Attacks
- Title(参考訳): 逆攻撃による LLM-Resistant Math Word Problem 生成
- Authors: Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra
- Abstract要約: 大型言語モデル(LLM)は教育の景観を大きく変えた。
LLMは、問題の数値を単純に編集することで、誤った答えを生成する。
本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.565175012136751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have significantly transformed the educational
landscape. As current plagiarism detection tools struggle to keep pace with
LLMs' rapid advancements, the educational community faces the challenge of
assessing students' true problem-solving abilities in the presence of LLMs. In
this work, we explore a new paradigm for ensuring fair evaluation -- generating
adversarial examples which preserve the structure and difficulty of the
original questions aimed for assessment, but are unsolvable by LLMs. Focusing
on the domain of math word problems, we leverage abstract syntax trees to
structurally generate adversarial examples that cause LLMs to produce incorrect
answers by simply editing the numeric values in the problems. We conduct
experiments on various open- and closed-source LLMs, quantitatively and
qualitatively demonstrating that our method significantly degrades their math
problem-solving ability. We identify shared vulnerabilities among LLMs and
propose a cost-effective approach to attack high-cost models. Additionally, we
conduct automatic analysis on math problems and investigate the cause of
failure to guide future research on LLM's mathematical capability.
- Abstract(参考訳): 大型言語モデル(LLM)は教育の景観を大きく変えた。
現在の盗作検出ツールは、LLMの急速な進歩に追随するために苦労しているため、教育コミュニティは、LLMの存在下での生徒の真の問題解決能力を評価するという課題に直面している。
本研究は,評価対象の質問の構造と難易度を保ちつつも,LLMでは解決できないような,公正な評価を保証するための新たなパラダイムを探求する。
数学用語問題の領域に着目し,抽象構文木を用いて,問題内の数値を単純に編集することによって,llmが不正確な回答を生じさせる敵意的な例を生成する。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
LLM間で共有脆弱性を識別し,高コストモデルに対するコスト効率の高いアプローチを提案する。
さらに, 数学問題の自動解析を行い, LLMの数学的能力に関する今後の研究を導くのに失敗の原因について検討する。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Are You Human? An Adversarial Benchmark to Expose LLMs [2.6528263069045126]
LLM(Large Language Models)は、会話中に人間を偽装する警告機能を実証している。
LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
論文 参考訳(メタデータ) (2024-10-12T15:33:50Z) - Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠である
この研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。
これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文 参考訳(メタデータ) (2024-05-23T17:13:50Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。