論文の概要: Deconstructing In-Context Learning: Understanding Prompts via Corruption
- arxiv url: http://arxiv.org/abs/2404.02054v2
- Date: Wed, 29 May 2024 16:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 22:52:03.771599
- Title: Deconstructing In-Context Learning: Understanding Prompts via Corruption
- Title(参考訳): 文脈内学習のデコンストラクタ:破壊によるプロンプト理解
- Authors: Namrata Shivagunde, Vladislav Lialin, Sherin Muckatira, Anna Rumshisky,
- Abstract要約: プロンプト全体を4つのコンポーネント(タスク記述、デモインプット、ラベル、インラインインストラクション)に分解する。
分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。
プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデルはプロンプトのセマンティクスに敏感であることがわかった。
- 参考スコア(独自算出の注目度): 13.37109575313212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of large language models (LLMs) to $``$learn in context$"$ based on the provided prompt has led to an explosive growth in their use, culminating in the proliferation of AI assistants such as ChatGPT, Claude, and Bard. These AI assistants are known to be robust to minor prompt modifications, mostly due to alignment techniques that use human feedback. In contrast, the underlying pre-trained LLMs they use as a backbone are known to be brittle in this respect. Building high-quality backbone models remains a core challenge, and a common approach to assessing their quality is to conduct few-shot evaluation. Such evaluation is notorious for being highly sensitive to minor prompt modifications, as well as the choice of specific in-context examples. Prior work has examined how modifying different elements of the prompt can affect model performance. However, these earlier studies tended to concentrate on a limited number of specific prompt attributes and often produced contradictory results. Additionally, previous research either focused on models with fewer than 15 billion parameters or exclusively examined black-box models like GPT-3 or PaLM, making replication challenging. In the present study, we decompose the entire prompt into four components: task description, demonstration inputs, labels, and inline instructions provided for each demonstration. We investigate the effects of structural and semantic corruptions of these elements on model performance. We study models ranging from 1.5B to 70B in size, using ten datasets covering classification and generation tasks. We find that repeating text within the prompt boosts model performance, and bigger models ($\geq$30B) are more sensitive to the semantics of the prompt. Finally, we observe that adding task and inline instructions to the demonstrations enhances model performance even when the instructions are semantically corrupted.
- Abstract(参考訳): 大きな言語モデル(LLMs)から$``$learn in context$"$は、提供されたプロンプトに基づいて、その使用が爆発的に増加し、ChatGPT、Claude、BardといったAIアシスタントの普及につながった。
これらのAIアシスタントは、人間のフィードバックを使用するアライメント技術によって、マイナーな迅速な修正に対して堅牢であることが知られている。
対照的に、彼らがバックボーンとして使用する基礎となる事前訓練されたLSMは、この点において脆いことが知られている。
高品質のバックボーンモデルの構築は依然として中心的な課題であり、その品質を評価するための一般的なアプローチは、ほとんどショット評価を行うことである。
このような評価は、マイナーな迅速な修正に非常に敏感であることや、特定のインコンテキストの例を選択することで有名である。
これまでの研究では、プロンプトの異なる要素の変更がモデルのパフォーマンスにどのように影響するかを調べてきた。
しかし、これらの初期の研究は特定のプロンプト属性の限られた数に集中する傾向があり、しばしば矛盾する結果を生んだ。
さらに、以前の研究では、パラメータが150億未満のモデルに焦点を当てたり、GPT-3やPaLMのようなブラックボックスモデルのみを精査し、複製を困難にしていた。
本研究では,全プロンプトをタスク記述,デモインプット,ラベル,インラインインストラクションの4つのコンポーネントに分解する。
これらの要素の構造的・意味的腐敗がモデル性能に及ぼす影響について検討する。
分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。
プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデル($30B)はプロンプトのセマンティクスにより敏感であることがわかった。
最後に、実演にタスクとインライン命令を追加することで、意味的に破損してもモデル性能が向上することが観察された。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Using Foundation Models to Detect Policy Violations with Minimal
Supervision [15.599296461516982]
我々は、政策違反を検出するために基礎モデルの能力を活用しようとしている。
ソフト・プロンプト・チューニングによるハード・プロンプトを構成し,極めて少ない監督で高精度な分類器を生成する。
基礎モデルのいくつかの直観的側面を同定する。
論文 参考訳(メタデータ) (2023-06-09T20:08:48Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Structured Prompting: Scaling In-Context Learning to 1,000 Examples [78.41281805608081]
長さ制限を破り、文脈内学習を数千の例に拡張する構造化プロンプトを導入する。
具体的には、デモ例は、適切に設計された位置埋め込みで別々にエンコードされ、その後、再スケールされた注意機構を使用してテスト例に共同で出席する。
論文 参考訳(メタデータ) (2022-12-13T16:31:21Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。