論文の概要: In-Context Learning Learns Label Relationships but Is Not Conventional
Learning
- arxiv url: http://arxiv.org/abs/2307.12375v4
- Date: Wed, 13 Mar 2024 15:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:18.499817
- Title: In-Context Learning Learns Label Relationships but Is Not Conventional
Learning
- Title(参考訳): ラベル関係を学習するIn-Context Learning
学び
- Authors: Jannik Kossen, Yarin Gal, Tom Rainforth
- Abstract要約: 大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
- 参考スコア(独自算出の注目度): 60.891931501449726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predictions of Large Language Models (LLMs) on downstream tasks often
improve significantly when including examples of the input--label relationship
in the context. However, there is currently no consensus about how this
in-context learning (ICL) ability of LLMs works. For example, while Xie et al.
(2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022)
argue ICL does not even learn label relationships from in-context examples. In
this paper, we provide novel insights into how ICL leverages label information,
revealing both capabilities and limitations. To ensure we obtain a
comprehensive picture of ICL behavior, we study probabilistic aspects of ICL
predictions and thoroughly examine the dynamics of ICL as more examples are
provided. Our experiments show that ICL predictions almost always depend on
in-context labels and that ICL can learn truly novel tasks in-context. However,
we also find that ICL struggles to fully overcome prediction preferences
acquired from pre-training data and, further, that ICL does not consider all
in-context information equally.
- Abstract(参考訳): 下流タスクにおけるLarge Language Models(LLM)の予測は、文脈における入力-ラベル関係の例を含むと、しばしば大幅に改善される。
しかし、LLMのこのコンテキスト内学習(ICL)機能がどのように機能するかについては、現時点では合意が得られていない。
例えば、Xie et al (2021) はICLを汎用学習アルゴリズムに例えたが、Min et al (2022) はICLは文脈内例からラベル関係を学ばないと主張している。
本稿では,ICLがラベル情報をどのように活用するかという新たな知見を提供し,その能力と限界を明らかにする。
ICLの挙動を網羅的に把握するために、ICL予測の確率論的側面を調査し、より多くの事例が提供されるにつれてICCのダイナミクスを徹底的に検証する。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
しかし、ICLは事前学習データから得られる予測嗜好を完全に克服するのに苦労しており、さらに、ICLがすべてのコンテキスト内情報を等しく考慮していないことも判明した。
関連論文リスト
- Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - In-Context Learning with Long-Context Models: An In-Depth Exploration [96.1389740719691]
大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。
長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益は同様の例に答えることから得られている。
論文 参考訳(メタデータ) (2024-04-30T21:06:52Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - Weakly Supervised Continual Learning [17.90483695137098]
この研究は、弱々しい監視された継続的学習(WSCL)を探求する
我々の提案は、教師付き情報が不足している場合に高い柔軟性を示すだけでなく、25%未満のラベルが、完全な監督の下で訓練されたSOTAメソッドに到達したり、性能を上回るのに十分であることを示す。
そこで本手法では, 教師付き情報が少ない場合に高い柔軟性を示すだけでなく, 25%未満のラベルが, 完全監督下で訓練されたSOTA手法に到達したり, 性能を向上させるのに十分であることを示す。
論文 参考訳(メタデータ) (2021-08-14T14:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。