論文の概要: Improving Black-box Robustness with In-Context Rewriting
- arxiv url: http://arxiv.org/abs/2402.08225v3
- Date: Mon, 5 Aug 2024 00:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:46:09.143375
- Title: Improving Black-box Robustness with In-Context Rewriting
- Title(参考訳): インコンテキスト書き換えによるブラックボックスロバストネスの改善
- Authors: Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen,
- Abstract要約: テキスト分類のための機械学習モデルは、しばしばIn-distribution (ID)データに優れるが、目に見えないout-of-distriion (OOD)入力に苦労する。
OODロバスト性を改善するほとんどのテクニックは、モデルが事実上ブラックボックスであるような設定には適用できない。
TTA(Test-time augmentation)は、ブラックボックス制約をサイドステップする堅牢性を改善するためのシンプルなポストホック手法である。
- 参考スコア(独自算出の注目度): 43.72822994915385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models for text classification often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.48 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.74\%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility.
- Abstract(参考訳): テキスト分類のための機械学習モデルは、しばしばIn-distribution (ID)データに優れるが、目に見えないout-of-distriion (OOD)入力に苦労する。
OODロバスト性を改善するほとんどのテクニックは、重みが凍結されたり、再トレーニングがコストがかかる場合や、API経由でモデルを活用する場合など、モデルが事実上ブラックボックスであるような設定には適用できない。
TTA(Test-time augmentation)は、テスト入力の複数の拡張にまたがる予測を集約することによってブラックボックス制約を傍受するロバスト性を改善する単純なポストホック手法である。
TTAは、効果的な自然言語拡張を生成することの難しさから、NLPでの使用が制限されている。
本研究では,LLM生成オーグメンテーションをTTAのオーグメンテーション関数として用いるLLM-TTAを提案する。
LLM-TTA は BERT と T5 のモデルにおいて、感情、毒性、ニュース分類といった従来の拡張機能よりも優れており、BERT の OOD の堅牢性は平均 4.48 ポイント向上している。
予測エントロピーに基づいて入力を選択的に増強し、高価なLCM増倍率を低減し、生成した増倍率の平均値を57.74\%削減しながら性能向上を維持できるようにする。
LLM-TTAはタスクモデルアーキテクチャに非依存であり、OODラベルを必要としない。
再現性のためのデータ、モデル、コードを共有しています。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。