論文の概要: Meta- (out-of-context) learning in neural networks
- arxiv url: http://arxiv.org/abs/2310.15047v2
- Date: Tue, 24 Oct 2023 14:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:13:56.443399
- Title: Meta- (out-of-context) learning in neural networks
- Title(参考訳): ニューラルネットワークにおけるメタ(文脈外)学習
- Authors: Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Mlodozeniec, David
Krueger
- Abstract要約: 大言語モデル(LLM)メタ・アウト・オブ・コンテクスト・ラーニング(meta-OCL)におけるイン・コンテクスト・ラーニング(in-context learning)現象と呼ぶ。
以上の結果から,メタOCLはLLMを,テキストのセマンティックな内容をより容易に「インターナライズ」し,より広範に有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 9.436408291701603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brown et al. (2020) famously introduced the phenomenon of in-context learning
in large language models (LLMs). We establish the existence of a phenomenon we
call meta-out-of-context learning (meta-OCL) via carefully designed synthetic
experiments with LLMs. Our results suggest that meta-OCL leads LLMs to more
readily "internalize" the semantic content of text that is, or appears to be,
broadly useful (such as true statements, or text from authoritative sources)
and use it in appropriate circumstances. We further demonstrate meta-OCL in a
synthetic computer vision setting, and propose two hypotheses for the emergence
of meta-OCL: one relying on the way models store knowledge in their parameters,
and another suggesting that the implicit gradient alignment bias of
gradient-descent-based optimizers may be responsible. Finally, we reflect on
what our results might imply about capabilities of future AI systems, and
discuss potential risks. Our code can be found at
https://github.com/krasheninnikov/internalization.
- Abstract(参考訳): brown et al. (2020) は、大規模言語モデル(llm)における文脈内学習の現象を導入したことで有名である。
我々は,llmsを用いた合成実験によりメタアウト・オブ・コンテキスト学習(meta-ocl)と呼ばれる現象の存在を確立する。
以上の結果から,メタOCL は LLM をより容易に,あるいは広く有用と思われるテキスト(真文や権威情報源からのテキストなど)のセマンティックな内容に"内部化" し,適切な状況で利用することが示唆された。
さらに, メタOCLの出現の仮説として, モデルがパラメータに知識を格納する方法に依存したメタOCLと, 勾配依存型最適化器の暗黙的勾配アライメントバイアスが原因である可能性が示唆された。
最後に、将来のAIシステムの能力について、我々の結果が示唆するものを反映し、潜在的なリスクについて議論する。
私たちのコードはhttps://github.com/krasheninnikov/internalizationにあります。
関連論文リスト
- Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - Input Conditioned Graph Generation for Language Agents [31.2175071107555]
言語エージェントをグラフとして抽象化する既存のフレームワークを用いて,学習可能な動的言語エージェントを開発する。
我々は与えられた入力に基づいて通信の流れを表すエッジを生成することを学び、それによって言語エージェントの内部通信を調整する。
提案手法は,MMLUとCMMLUを併用したデータセットにおいて,従来の静的アプローチを約6%の精度で上回り,疎度誘導損失のトレーニングでは10%以上の精度で適用できる。
論文 参考訳(メタデータ) (2024-06-17T13:53:15Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-04-09T10:58:21Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。