Fugu-MT 論文翻訳(概要): LLM-Resistant Math Word Problem Generation via Adversarial Attacks

論文の概要: LLM-Resistant Math Word Problem Generation via Adversarial Attacks

arxiv url: http://arxiv.org/abs/2402.17916v1
Date: Tue, 27 Feb 2024 22:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:52:39.999424
Title: LLM-Resistant Math Word Problem Generation via Adversarial Attacks
Title（参考訳）: 逆攻撃による LLM-Resistant Math Word Problem 生成
Authors: Roy Xie, Chengxuan Huang, Junlin Wang, Bhuwan Dhingra
Abstract要約: 大型言語モデル(LLM)は教育の景観を大きく変えた。 LLMは、問題の数値を単純に編集することで、誤った答えを生成する。本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
参考スコア（独自算出の注目度）: 7.565175012136751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have significantly transformed the educational landscape. As current plagiarism detection tools struggle to keep pace with LLMs' rapid advancements, the educational community faces the challenge of assessing students' true problem-solving abilities in the presence of LLMs. In this work, we explore a new paradigm for ensuring fair evaluation -- generating adversarial examples which preserve the structure and difficulty of the original questions aimed for assessment, but are unsolvable by LLMs. Focusing on the domain of math word problems, we leverage abstract syntax trees to structurally generate adversarial examples that cause LLMs to produce incorrect answers by simply editing the numeric values in the problems. We conduct experiments on various open- and closed-source LLMs, quantitatively and qualitatively demonstrating that our method significantly degrades their math problem-solving ability. We identify shared vulnerabilities among LLMs and propose a cost-effective approach to attack high-cost models. Additionally, we conduct automatic analysis on math problems and investigate the cause of failure to guide future research on LLM's mathematical capability.
Abstract（参考訳）: 大型言語モデル(LLM)は教育の景観を大きく変えた。現在の盗作検出ツールは、LLMの急速な進歩に追随するために苦労しているため、教育コミュニティは、LLMの存在下での生徒の真の問題解決能力を評価するという課題に直面している。本研究は,評価対象の質問の構造と難易度を保ちつつも,LLMでは解決できないような,公正な評価を保証するための新たなパラダイムを探求する。数学用語問題の領域に着目し,抽象構文木を用いて,問題内の数値を単純に編集することによって,llmが不正確な回答を生じさせる敵意的な例を生成する。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。 LLM間で共有脆弱性を識別し,高コストモデルに対するコスト効率の高いアプローチを提案する。さらに, 数学問題の自動解析を行い, LLMの数学的能力に関する今後の研究を導くのに失敗の原因について検討する。

関連論文リスト

LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T18:26:48Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
Are You Human? An Adversarial Benchmark to Expose LLMs [2.6528263069045126]
LLM(Large Language Models)は、会話中に人間を偽装する警告機能を実証している。 LLMインポスタをリアルタイムに公開するための課題として設計されたテキストベースのプロンプトを評価する。
論文参考訳（メタデータ） (2024-10-12T15:33:50Z)
Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠であるこの研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文参考訳（メタデータ） (2024-05-23T17:13:50Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。