論文の概要: In-Context Learning Dynamics with Random Binary Sequences
- arxiv url: http://arxiv.org/abs/2310.17639v1
- Date: Thu, 26 Oct 2023 17:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:27:44.684257
- Title: In-Context Learning Dynamics with Random Binary Sequences
- Title(参考訳): ランダム二分列を用いた文脈内学習ダイナミクス
- Authors: Eric J. Bigelow, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka,
Tomer D. Ullman
- Abstract要約: 大量のテキストデータセットのコーパスに基づいてトレーニングされた大規模言語モデル(LLM)は、複雑で創発的な機能を示している。
本稿では,文脈内学習のダイナミクスを解析できる認知的解釈可能性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.858267247360267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained on huge corpora of text datasets
demonstrate complex, emergent capabilities, achieving state-of-the-art
performance on tasks they were not explicitly trained for. The precise nature
of LLM capabilities is often mysterious, and different prompts can elicit
different capabilities through in-context learning. We propose a Cognitive
Interpretability framework that enables us to analyze in-context learning
dynamics to understand latent concepts in LLMs underlying behavioral patterns.
This provides a more nuanced understanding than success-or-failure evaluation
benchmarks, but does not require observing internal activations as a
mechanistic interpretation of circuits would. Inspired by the cognitive science
of human randomness perception, we use random binary sequences as context and
study dynamics of in-context learning by manipulating properties of context
data, such as sequence length. In the latest GPT-3.5+ models, we find emergent
abilities to generate pseudo-random numbers and learn basic formal languages,
with striking in-context learning dynamics where model outputs transition
sharply from pseudo-random behaviors to deterministic repetition.
- Abstract(参考訳): 大量のテキストデータセットでトレーニングされた大規模言語モデル(llm)は、複雑で創発的な能力を示し、明示的に訓練されていないタスクで最先端のパフォーマンスを達成する。
LLM能力の正確な性質はしばしば謎めいたものであり、異なるプロンプトは文脈内学習を通じて異なる能力を引き出すことができる。
本研究では,文脈内学習のダイナミクスを分析し,llmに基づく行動パターンの潜在概念を理解するための認知的解釈可能性フレームワークを提案する。
これは成功または失敗の評価ベンチマークよりも微妙な理解を提供するが、回路の機械的な解釈のように内部アクティベーションを観察する必要はない。
人間の無作為知覚の認知科学に着想を得て,ランダム二分列を文脈として使用し,シーケンス長などの文脈データの特性を操作することにより,文脈内学習のダイナミクスを研究する。
最新の GPT-3.5+ モデルでは、擬似ランダム数を生成し、基本形式言語を学習する能力が出現し、擬似ランダム行動から決定論的反復へとモデル出力が急激に遷移する、文脈内学習ダイナミクスが顕著である。
関連論文リスト
- What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law [3.281128493853064]
主にテキストに基づいて訓練された言語モデルは、微調整やプロンプトエンジニアリングなしで動的システム時系列の正確な予測を行う。
LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-01T17:28:10Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。