論文の概要: Are Large Language Models Really Robust to Word-Level Perturbations?
- arxiv url: http://arxiv.org/abs/2309.11166v2
- Date: Wed, 27 Sep 2023 09:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:26:42.265964
- Title: Are Large Language Models Really Robust to Word-Level Perturbations?
- Title(参考訳): 大規模言語モデルはワードレベル摂動に本当にロバストか?
- Authors: Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang, Zhiqi Huang,
Suwei Ma, Yongzhe Chang, Sen Zhang, Li Shen, Xueqian Wang, Peilin Zhao,
Dacheng Tao
- Abstract要約: 本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
- 参考スコア(独自算出の注目度): 68.60618778027694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The swift advancement in the scales and capabilities of Large Language Models
(LLMs) positions them as promising tools for a variety of downstream tasks. In
addition to the pursuit of better performance and the avoidance of violent
feedback on a certain prompt, to ensure the responsibility of the LLM, much
attention is drawn to the robustness of LLMs. However, existing evaluation
methods mostly rely on traditional question answering datasets with predefined
supervised labels, which do not align with the superior generation capabilities
of contemporary LLMs. To address this issue, we propose a novel rational
evaluation approach that leverages pre-trained reward models as diagnostic
tools to evaluate the longer conversation generated from more challenging open
questions by LLMs, which we refer to as the Reward Model for Reasonable
Robustness Evaluation (TREvaL). Longer conversations manifest the comprehensive
grasp of language models in terms of their proficiency in understanding
questions, a capability not entirely encompassed by individual words or
letters, which may exhibit oversimplification and inherent biases. Our
extensive empirical experiments demonstrate that TREvaL provides an innovative
method for evaluating the robustness of an LLM. Furthermore, our results
demonstrate that LLMs frequently exhibit vulnerability to word-level
perturbations that are commonplace in daily language usage. Notably, we are
surprised to discover that robustness tends to decrease as fine-tuning (SFT and
RLHF) is conducted. The code of TREval is available in
https://github.com/Harry-mic/TREvaL.
- Abstract(参考訳): 大規模言語モデル(llm)のスケールと能力の迅速な向上は、それらをさまざまなダウンストリームタスクの有望なツールとして位置付けている。
より優れたパフォーマンスの追求と一定のプロンプトに対する暴力的フィードバックの回避に加えて、LLMの責任を確実にするため、LLMの堅牢性に多くの注意が払われる。
しかし,既存の評価手法は,従来の質問応答データセットと事前定義された教師付きラベルに大きく依存しており,現代のLLMの優れた生成能力と一致しない。
そこで本研究では,事前学習した報酬モデルを診断ツールとして利用する新しい合理的評価手法を提案し,llmsによるより難解な質問から生じる会話長を,合理的なロバスト性評価のための報酬モデル(treval)として評価する。
長い会話は、個々の単語や文字に完全に包含されない能力である質問の理解能力の観点から言語モデルの包括的把握を示し、単純化と固有のバイアスを示す。
我々の広範な実証実験により、TREvaLはLLMのロバスト性を評価する革新的な方法であることが示された。
さらに,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
特に,ファインチューニング (SFT, RLHF) の実施によりロバストネスが低下する傾向がみられた。
TREvalのコードはhttps://github.com/Harry-mic/TREvaLで公開されている。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。