論文の概要: Are Large Language Models Really Robust to Word-Level Perturbations?
- arxiv url: http://arxiv.org/abs/2309.11166v2
- Date: Wed, 27 Sep 2023 09:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:26:42.265964
- Title: Are Large Language Models Really Robust to Word-Level Perturbations?
- Title(参考訳): 大規模言語モデルはワードレベル摂動に本当にロバストか?
- Authors: Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang, Zhiqi Huang,
Suwei Ma, Yongzhe Chang, Sen Zhang, Li Shen, Xueqian Wang, Peilin Zhao,
Dacheng Tao
- Abstract要約: 本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
- 参考スコア(独自算出の注目度): 68.60618778027694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The swift advancement in the scales and capabilities of Large Language Models
(LLMs) positions them as promising tools for a variety of downstream tasks. In
addition to the pursuit of better performance and the avoidance of violent
feedback on a certain prompt, to ensure the responsibility of the LLM, much
attention is drawn to the robustness of LLMs. However, existing evaluation
methods mostly rely on traditional question answering datasets with predefined
supervised labels, which do not align with the superior generation capabilities
of contemporary LLMs. To address this issue, we propose a novel rational
evaluation approach that leverages pre-trained reward models as diagnostic
tools to evaluate the longer conversation generated from more challenging open
questions by LLMs, which we refer to as the Reward Model for Reasonable
Robustness Evaluation (TREvaL). Longer conversations manifest the comprehensive
grasp of language models in terms of their proficiency in understanding
questions, a capability not entirely encompassed by individual words or
letters, which may exhibit oversimplification and inherent biases. Our
extensive empirical experiments demonstrate that TREvaL provides an innovative
method for evaluating the robustness of an LLM. Furthermore, our results
demonstrate that LLMs frequently exhibit vulnerability to word-level
perturbations that are commonplace in daily language usage. Notably, we are
surprised to discover that robustness tends to decrease as fine-tuning (SFT and
RLHF) is conducted. The code of TREval is available in
https://github.com/Harry-mic/TREvaL.
- Abstract(参考訳): 大規模言語モデル(llm)のスケールと能力の迅速な向上は、それらをさまざまなダウンストリームタスクの有望なツールとして位置付けている。
より優れたパフォーマンスの追求と一定のプロンプトに対する暴力的フィードバックの回避に加えて、LLMの責任を確実にするため、LLMの堅牢性に多くの注意が払われる。
しかし,既存の評価手法は,従来の質問応答データセットと事前定義された教師付きラベルに大きく依存しており,現代のLLMの優れた生成能力と一致しない。
そこで本研究では,事前学習した報酬モデルを診断ツールとして利用する新しい合理的評価手法を提案し,llmsによるより難解な質問から生じる会話長を,合理的なロバスト性評価のための報酬モデル(treval)として評価する。
長い会話は、個々の単語や文字に完全に包含されない能力である質問の理解能力の観点から言語モデルの包括的把握を示し、単純化と固有のバイアスを示す。
我々の広範な実証実験により、TREvaLはLLMのロバスト性を評価する革新的な方法であることが示された。
さらに,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
特に,ファインチューニング (SFT, RLHF) の実施によりロバストネスが低下する傾向がみられた。
TREvalのコードはhttps://github.com/Harry-mic/TREvaLで公開されている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。