Fugu-MT 論文翻訳(概要): The Developmental Landscape of In-Context Learning

関連論文リスト

Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文参考訳（メタデータ） (2024-11-07T05:43:50Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Dynamical loss functions shape landscape topography and improve learning in artificial neural networks [0.9208007322096533]
クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。
論文参考訳（メタデータ） (2024-10-14T16:27:03Z)
Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文参考訳（メタデータ） (2024-10-03T20:51:02Z)
Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文参考訳（メタデータ） (2024-04-08T17:33:11Z)
T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers [8.261182037130407]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文参考訳（メタデータ） (2024-03-07T14:25:03Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文参考訳（メタデータ） (2023-10-05T08:27:33Z)
Emergent learning in physical systems as feedback-based aging in a glassy landscape [0.0]
学習力学は,フィードバック境界力の繰り返し適用に応答してシステムを緩和する老化過程に類似していることが示される。また、エポック関数としての平均二乗誤差の平方根が、ガラス系の典型的な特徴である非指数形式をとることも観察する。
論文参考訳（メタデータ） (2023-09-08T15:24:55Z)
Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文参考訳（メタデータ） (2023-07-24T17:03:28Z)
Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。これらの機構の集約演算子に補正項を提示する。
論文参考訳（メタデータ） (2023-06-02T15:19:08Z)
Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文参考訳（メタデータ） (2023-04-25T15:53:45Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
The Geometry of Self-supervised Learning Models and its Impact on Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文参考訳（メタデータ） (2022-09-18T18:15:38Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文参考訳（メタデータ） (2021-02-28T16:22:58Z)
Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文参考訳（メタデータ） (2021-02-19T17:22:16Z)
Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文参考訳（メタデータ） (2020-12-30T17:14:25Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文参考訳（メタデータ） (2020-04-30T19:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: The Developmental Landscape of In-Context Learning

関連論文リスト