論文の概要: Using Natural Language Explanations to Improve Robustness of In-context Learning
- arxiv url: http://arxiv.org/abs/2311.07556v2
- Date: Mon, 20 May 2024 16:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:10:05.634814
- Title: Using Natural Language Explanations to Improve Robustness of In-context Learning
- Title(参考訳): 自然言語記述を用いたインコンテクスト学習のロバスト性向上
- Authors: Xuanli He, Yuxiang Wu, Oana-Maria Camburu, Pasquale Minervini, Pontus Stenetorp,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
- 参考スコア(独自算出の注目度): 35.18010811754959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies demonstrated that large language models (LLMs) can excel in many tasks via in-context learning (ICL). However, recent works show that ICL-prompted models tend to produce inaccurate results when presented with adversarial inputs. In this work, we investigate whether augmenting ICL with natural language explanations (NLEs) improves the robustness of LLMs on adversarial datasets covering natural language inference and paraphrasing identification. We prompt LLMs with a small set of human-generated NLEs to produce further NLEs, yielding more accurate results than both a zero-shot-ICL setting and using only human-generated NLEs. Our results on five popular LLMs (GPT3.5-turbo, Llama2, Vicuna, Zephyr, and Mistral) show that our approach yields over 6% improvement over baseline approaches for eight adversarial datasets: HANS, ISCS, NaN, ST, PICD, PISP, ANLI, and PAWS. Furthermore, previous studies have demonstrated that prompt selection strategies significantly enhance ICL on in-distribution test sets. However, our findings reveal that these strategies do not match the efficacy of our approach for robustness evaluations, resulting in an accuracy drop of 8% compared to the proposed approach.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)が、文脈内学習(ICL)を通じて多くのタスクを遂行できることが示されている。
しかし,近年の研究では,逆入力を用いた場合,ICLが提案するモデルでは不正確な結果が生じる傾向が示されている。
本研究では,自然言語の推論とパラフレーズ識別を対象とする敵対的データセットにおいて,自然言語説明(NLE)によるICLの強化がLLMの堅牢性を向上させるか否かを検討する。
我々は,人間生成NLEの小さなセットでLSMにさらなるNLEを生成するよう促し,ゼロショットICL設定と人生成NLEの使用の両方よりも正確な結果を得る。
5つのLLM (GPT3.5-turbo, Llama2, Vicuna, Zephyr, Mistral) の結果から, HANS, ISCS, NaN, ST, PICD, PISP, ANLI, PAWS の8つのデータセットに対するベースラインアプローチよりも6%以上の改善が得られた。
さらに、従来の研究では、迅速な選択戦略により、分布内テストセット上でのICLが著しく向上することが示されている。
しかし, 本手法はロバスト性評価に適合せず, その結果, 提案手法と比較して8%の精度低下がみられた。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。
提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。
8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2024-05-30T07:19:31Z) - An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification [13.698224831089464]
Self-Admitted Technical Debt (SATD) は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における準最適選択を強調する概念である。
本稿では,SATDの識別と分類における大規模言語モデル(LLM)の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-10T20:39:24Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。