論文の概要: Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora?
- arxiv url: http://arxiv.org/abs/2404.06838v1
- Date: Wed, 10 Apr 2024 09:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:00:17.552253
- Title: Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora?
- Title(参考訳): LLMs Exhibit a Coherent Behavior on Simplified Corpora?
- Authors: Miriam Anschütz, Edoardo Mosca, Georg Groh,
- Abstract要約: BERTとOpenAIのGPT 3.5を含む11の事前トレーニングモデルを使用して、3つの言語にまたがる6つのデータセットで実験を行った。
以上の結果から,すべての言語やモデルに矛盾が生じていることが判明した。
迅速な対応がなければ、単純化された入力は、最大50%の成功率でゼロイットモデルに依存しない敵攻撃を構築するために簡単に利用することができる。
- 参考スコア(独自算出の注目度): 3.780441744500289
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text simplification seeks to improve readability while retaining the original content and meaning. Our study investigates whether pre-trained classifiers also maintain such coherence by comparing their predictions on both original and simplified inputs. We conduct experiments using 11 pre-trained models, including BERT and OpenAI's GPT 3.5, across six datasets spanning three languages. Additionally, we conduct a detailed analysis of the correlation between prediction change rates and simplification types/strengths. Our findings reveal alarming inconsistencies across all languages and models. If not promptly addressed, simplified inputs can be easily exploited to craft zero-iteration model-agnostic adversarial attacks with success rates of up to 50%
- Abstract(参考訳): テキストの単純化は、オリジナルの内容と意味を維持しながら読みやすさを向上させることを目指している。
本研究は,事前学習した分類器が,元の入力と単純化された入力の予測を比較することによって,このような一貫性を維持しているかどうかを考察する。
BERTやOpenAIのGPT 3.5を含む11の事前トレーニングモデルを使用して、3つの言語にまたがる6つのデータセットで実験を行った。
さらに、予測変化率と単純化タイプ/強度の相関関係を詳細に分析する。
以上の結果から,すべての言語やモデルに矛盾が生じていることが判明した。
即時対応しない場合、単純化された入力は簡単に利用でき、ゼロイテレーションモデルに依存しない攻撃を最大50%の成功率で行うことができる。
関連論文リスト
- Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Robustifying Sentiment Classification by Maximally Exploiting Few
Counterfactuals [16.731183915325584]
そこで本研究では,トレーニングデータの少数のアノテーションのみを必要とする新しい手法を提案する。
また,手作業による正解率を1%に抑えることで,顕著な精度向上を実現した。
論文 参考訳(メタデータ) (2022-10-21T08:30:09Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。