論文の概要: Using Natural Language Explanations to Improve Robustness of In-context
Learning for Natural Language Inference
- arxiv url: http://arxiv.org/abs/2311.07556v1
- Date: Mon, 13 Nov 2023 18:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 12:55:44.599943
- Title: Using Natural Language Explanations to Improve Robustness of In-context
Learning for Natural Language Inference
- Title(参考訳): 自然言語記述を用いた自然言語推論における文脈内学習のロバスト性向上
- Authors: Xuanli He, Yuxiang Wu, Oana-Maria Camburu, Pasquale Minervini, Pontus
Stenetorp
- Abstract要約: 大規模言語モデル(LLM)は、タスク固有のプロンプトや例によって促進される、コンテキスト内学習(ICL)を通じて様々なタスクに優れる。
ICLを自然言語説明法(NLE)で拡張すると性能が向上する(これをX-ICLと呼ぶ)。
本研究では,X-ICLが7つの逆数および挑戦的な自然言語推論データセットからなるスイート上でのLLMの堅牢性を向上させることができるかを検討する。
- 参考スコア(独自算出の注目度): 37.742836659189095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated that large language models (LLMs) excel in
diverse tasks through in-context learning (ICL) facilitated by task-specific
prompts and examples. However, the existing literature shows that ICL
encounters performance deterioration when exposed to adversarial inputs.
Enhanced performance has been observed when ICL is augmented with natural
language explanations (NLEs) (we refer to it as X-ICL). Thus, this work
investigates whether X-ICL can improve the robustness of LLMs on a suite of
seven adversarial and challenging natural language inference datasets.
Moreover, we introduce a new approach to X-ICL by prompting an LLM (ChatGPT in
our case) with few human-generated NLEs to produce further NLEs (we call it
ChatGPT few-shot), which we show superior to both ChatGPT zero-shot and
human-generated NLEs alone. We evaluate five popular LLMs (GPT3.5-turbo,
LLaMa2, Vicuna, Zephyr, Mistral) and show that X-ICL with ChatGPT few-shot
yields over 6% improvement over ICL. Furthermore, while prompt selection
strategies were previously shown to significantly improve ICL on
in-distribution test sets, we show that these strategies do not match the
efficacy of the X-ICL paradigm in robustness-oriented evaluations.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が,タスク固有のプロンプトや例によって促進されるインコンテキスト学習 (ICL) を通じて,多様なタスクに優れることが実証されている。
しかし, 既存の文献から, iclは逆入力により性能が低下することが示された。
ICLを自然言語説明法(NLE)で拡張すると性能が向上する(X-ICLと呼ぶ)。
そこで本研究では,7組の自然言語推論データセットにおいて,x-iclがllmのロバスト性を向上させることができるか検討する。
また,人間の生成NLEの少ないLCM(ChatGPT)にさらなるNLEの生成を促すことで,X-ICLに新たなアプローチを導入し,ChatGPTゼロショットと人為的NLEの双方よりも優れていることを示す。
我々は,5つのLLM (GPT3.5-turbo, LLaMa2, Vicuna, Zephyr, Mistral) を評価し,ChatGPTを用いたX-ICLはICLよりも6%以上向上することを示した。
さらに, 早期選択戦略は, 分散テストセットのICLを著しく改善することを示したが, これらの戦略はロバストネス指向評価におけるX-ICLパラダイムの有効性と一致しないことを示した。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Assessing LLMs for Zero-shot Abstractive Summarization Through the Lens of Relevance Paraphrasing [37.400757839157116]
大言語モデル(LLM)は、与えられた記事に対する抽象的な要約のゼロショット生成において最先端のパフォーマンスを達成した。
本稿では,LLMのロバスト性を測定するためのシンプルな戦略であるrelevance paraphrasingを提案する。
論文 参考訳(メタデータ) (2024-06-06T12:08:43Z) - Enhancing Reinforcement Learning with Label-Sensitive Reward for Natural Language Understanding [11.470005425117371]
ラベルセンシティブ・リワード(RLLR)で強化された新しい強化学習フレームワークを提案する。
提案手法は,RL中におけるニュアンス付きラベルセンシティブな意味的特徴を適切に捉え,自然言語の理解を向上させることを目的としている。
8つのタスクにまたがる5つの多様な基礎モデルの実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2024-05-30T07:19:31Z) - An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification [13.698224831089464]
Self-Admitted Technical Debt (SATD) は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における準最適選択を強調する概念である。
本稿では,SATDの識別と分類における大規模言語モデル(LLM)の有効性について検討する。
論文 参考訳(メタデータ) (2024-05-10T20:39:24Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。