Fugu-MT 論文翻訳(概要): Power Law Graph Transformer for Machine Translation and Representation Learning

論文の概要: Power Law Graph Transformer for Machine Translation and Representation Learning

arxiv url: http://arxiv.org/abs/2107.02039v1
Date: Sun, 27 Jun 2021 15:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-11 12:29:51.610406
Title: Power Law Graph Transformer for Machine Translation and Representation Learning
Title（参考訳）: 機械翻訳・表現学習のためのパワーローグラフ変換
Authors: Burc Gokden
Abstract要約: 本稿では,予測と表現学習のための帰納的および帰納的タスクを適切に定義した変圧器モデルであるPower Law Graph Transformerを提案する。我々は、機械翻訳のためのTEDトークテキストからトルコ語とポルトガル語のデータセットを用いてモデルを訓練した。量子化集合とN-次元多様体表現の双対性を利用して局所的および大域的帰納的帰納的出力を変換する方法を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the Power Law Graph Transformer, a transformer model with well defined deductive and inductive tasks for prediction and representation learning. The deductive task learns the dataset level (global) and instance level (local) graph structures in terms of learnable power law distribution parameters. The inductive task outputs the prediction probabilities using the deductive task output, similar to a transductive model. We trained our model with Turkish-English and Portuguese-English datasets from TED talk transcripts for machine translation and compared the model performance and characteristics to a transformer model with scaled dot product attention trained on the same experimental setup. We report BLEU scores of $17.79$ and $28.33$ on the Turkish-English and Portuguese-English translation tasks with our model, respectively. We also show how a duality between a quantization set and N-dimensional manifold representation can be leveraged to transform between local and global deductive-inductive outputs using successive application of linear and non-linear transformations end-to-end.
Abstract（参考訳）: 本稿では,予測と表現学習のための帰納的および帰納的タスクを適切に定義した変圧器モデルであるPower Law Graph Transformerを提案する。デダクティブタスクは、学習可能なパワー法則分布パラメータの観点から、データセットレベル(グローバル)とインスタンスレベル(ローカル)グラフ構造を学習する。インダクティブタスクは、トランスダクティブモデルと同様、インダクティブタスク出力を用いて予測確率を出力する。機械翻訳のためのted talkの書き起こしからトルコ英語とポルトガル英語のデータセットを使ってモデルを訓練し、同じ実験環境で訓練された大規模ドット製品を持つトランスフォーマモデルと比較した。 bleuのスコアは17.79$と28.33$で、それぞれわれわれのモデルでトルコ語と英語とポルトガル語の翻訳タスクを扱っている。また、量子化集合とN次元多様体表現の双対性を利用して、線形変換と非線形変換の連続的な応用を用いて局所的および大域的帰納的出力を変換できることを示す。

関連論文リスト

Continuum Transformers Perform In-Context Learning by Operator Gradient Descent [18.928543069018865]
連続体変換器は、演算子RKHSで勾配降下を実行することで、コンテキスト内演算子学習を行うことができることを示す。本研究では、この最適性結果の実証検証を行い、この勾配降下を行うパラメータが連続変圧器訓練によって回復されることを実証する。
論文参考訳（メタデータ） (2025-05-23T12:52:54Z)
Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
本稿では,解凍型大規模変圧器のモデル非依存化フレームワークであるEntropy-Lensを紹介する。この結果から, エントロピーに基づくメトリクスは, 現代のトランスフォーマーアーキテクチャの内部構造を明らかにするための基本的ツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-02-23T13:33:27Z)
Transformers Simulate MLE for Sequence Generation in Bayesian Networks [18.869174453242383]
In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
論文参考訳（メタデータ） (2025-01-05T13:56:51Z)
Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers [9.208766125523612]
トランスフォーマーアーキテクチャを応用した自然言語処理の基礎モデルは、優れたコンテキスト内学習能力を示している。線形楕円型PDEの族に付随する解演算子に適用した変換器ベースICLの厳密な誤差解析法を開発した。分散シフトを経験する下流PDEタスクにおける事前学習された変換器の適応性を定量化する。
論文参考訳（メタデータ） (2024-09-18T19:59:50Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文参考訳（メタデータ） (2024-06-05T01:47:40Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文参考訳（メタデータ） (2024-04-23T12:51:37Z)
SIP: Injecting a Structural Inductive Bias into a Seq2Seq Model by Simulation [75.14793516745374]
本稿では, 構造的帰納バイアスをセック2セックモデルに効率よく注入し, 合成データの構造的変換をシミュレートする方法について述べる。実験の結果,本手法は所望の帰納バイアスを付与し,FSTのようなタスクに対してより優れた数発学習を実現することがわかった。
論文参考訳（メタデータ） (2023-10-01T21:19:12Z)
Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文参考訳（メタデータ） (2021-03-09T06:39:56Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文参考訳（メタデータ） (2020-06-25T13:43:11Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。