論文の概要: Meta- (out-of-context) learning in neural networks
- arxiv url: http://arxiv.org/abs/2310.15047v2
- Date: Tue, 24 Oct 2023 14:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:13:56.443399
- Title: Meta- (out-of-context) learning in neural networks
- Title(参考訳): ニューラルネットワークにおけるメタ(文脈外)学習
- Authors: Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Mlodozeniec, David
Krueger
- Abstract要約: 大言語モデル(LLM)メタ・アウト・オブ・コンテクスト・ラーニング(meta-OCL)におけるイン・コンテクスト・ラーニング(in-context learning)現象と呼ぶ。
以上の結果から,メタOCLはLLMを,テキストのセマンティックな内容をより容易に「インターナライズ」し,より広範に有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 9.436408291701603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brown et al. (2020) famously introduced the phenomenon of in-context learning
in large language models (LLMs). We establish the existence of a phenomenon we
call meta-out-of-context learning (meta-OCL) via carefully designed synthetic
experiments with LLMs. Our results suggest that meta-OCL leads LLMs to more
readily "internalize" the semantic content of text that is, or appears to be,
broadly useful (such as true statements, or text from authoritative sources)
and use it in appropriate circumstances. We further demonstrate meta-OCL in a
synthetic computer vision setting, and propose two hypotheses for the emergence
of meta-OCL: one relying on the way models store knowledge in their parameters,
and another suggesting that the implicit gradient alignment bias of
gradient-descent-based optimizers may be responsible. Finally, we reflect on
what our results might imply about capabilities of future AI systems, and
discuss potential risks. Our code can be found at
https://github.com/krasheninnikov/internalization.
- Abstract(参考訳): brown et al. (2020) は、大規模言語モデル(llm)における文脈内学習の現象を導入したことで有名である。
我々は,llmsを用いた合成実験によりメタアウト・オブ・コンテキスト学習(meta-ocl)と呼ばれる現象の存在を確立する。
以上の結果から,メタOCL は LLM をより容易に,あるいは広く有用と思われるテキスト(真文や権威情報源からのテキストなど)のセマンティックな内容に"内部化" し,適切な状況で利用することが示唆された。
さらに, メタOCLの出現の仮説として, モデルがパラメータに知識を格納する方法に依存したメタOCLと, 勾配依存型最適化器の暗黙的勾配アライメントバイアスが原因である可能性が示唆された。
最後に、将来のAIシステムの能力について、我々の結果が示唆するものを反映し、潜在的なリスクについて議論する。
私たちのコードはhttps://github.com/krasheninnikov/internalizationにあります。
関連論文リスト
- Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - LLMs may Dominate Information Access: Neural Retrievers are Biased
Towards LLM-Generated Texts [36.73455759259717]
大規模言語モデル(LLM)は情報検索(IR)のパラダイムに革命をもたらした。
意外なことに, ニューラルネットワークによる検索モデルでは, LLM生成文書のランクが高くなる傾向が示唆された。
また、ソースバイアスを軽減するために、最適化目的に対するプラグアンドプレイのデバイアス制約を提案する。
論文 参考訳(メタデータ) (2023-10-31T14:42:23Z) - Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。
LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。
本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:33:24Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A Survey on In-context Learning [56.40261564926631]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。