論文の概要: Bidirectional Awareness Induction in Autoregressive Seq2Seq Models
- arxiv url: http://arxiv.org/abs/2408.13959v1
- Date: Sun, 25 Aug 2024 23:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:22:15.492414
- Title: Bidirectional Awareness Induction in Autoregressive Seq2Seq Models
- Title(参考訳): 自己回帰Seq2Seqモデルにおける双方向認識誘導
- Authors: Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi,
- Abstract要約: 双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
- 参考スコア(独自算出の注目度): 47.82947878753809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive Sequence-To-Sequence models are the foundation of many Deep Learning achievements in major research fields such as Vision and Natural Language Processing. Despite that, they still present significant limitations. For instance, when errors occur in the early steps of the prediction, the whole output is severely affected. Such reliance on previously predicted tokens and the inherent computational unfriendliness of sequential algorithms, motivated researchers to explore different architectures and methods in the search for bidirectional approaches. In this work, we introduce the Bidirectional Awareness Induction (BAI), a training method that leverages a subset of elements in the network, the Pivots, to perform bidirectional learning without breaking the autoregressive constraints. To showcase its flexibility, we apply the method to three architectures, the Transformer, ExpansionNet v2 and GPT, then perform experiments over three tasks. Experimental results showcase BAI's effectiveness on all selected tasks and architectures. In particular, we observed an increase of up to 2.4 CIDEr in Image-Captioning, 4.96 BLEU in Neural Machine Translation, and 1.16 ROUGE in Text Summarization compared to the respective baselines. Notably, BAI not only has a positive impact on models trained from scratch but on pre-trained models as well. Such an aspect, combined with the absence of architectural requirements synergizes well with the current trend of LLMs.
- Abstract(参考訳): 自己回帰シーケンス(Autoregressive Sequence-To-Sequence)モデルは、視覚や自然言語処理といった主要な研究分野における多くのディープラーニングの成果の基礎となっている。
それにもかかわらず、それらは依然として大きな制限を呈している。
例えば、予測の初期段階でエラーが発生した場合、アウトプット全体が深刻な影響を受ける。
以前に予測されたトークンやシーケンシャルアルゴリズムの計算上の非友好性に依存していたため、研究者は双方向アプローチの探索において異なるアーキテクチャや手法を探索する動機となった。
本研究では,ネットワーク内の要素のサブセットであるPivotsを利用して,自己回帰的制約を破ることなく双方向学習を行う訓練手法である双方向認識誘導(BAI)を導入する。
その柔軟性を示すために、Transformer, ExpansionNet v2, GPTの3つのアーキテクチャに適用し、3つのタスクで実験を行う。
実験結果は,BAIが選択したすべてのタスクとアーキテクチャに対して有効であることを示す。
特に,画像キャプションでは2.4CIDEr,ニューラル機械翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が観察された。
特に、BAIは、スクラッチからトレーニングされたモデルだけでなく、事前訓練されたモデルにも肯定的な影響を与える。
このような側面とアーキテクチャ要件の欠如が組み合わさって、LLMの現在のトレンドと相乗効果を生んでいる。
関連論文リスト
- SMLE: Safe Machine Learning via Embedded Overapproximation [4.129133569151574]
本研究は,デザイナ・ちょうせん特性を満たすことが保証される識別可能なMLモデルを訓練する作業について考察する。
現代のニューラルモデルにおけるコンプライアンスの厳格な検証と実施という計算複雑性のため、これは非常に難しい。
1)保守的なセマンティクスによる効率的な検証を可能にする汎用的,シンプルなアーキテクチャ。
回帰における線形不等式によって定義される特性と、多重ラベル分類における相互排他的クラスに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-09-30T17:19:57Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Inducing Causal Structure for Interpretable Neural Networks [23.68246698789134]
インターチェンジ・インターチェンジ・トレーニング(IIT)について紹介する。
In IIT, (1)align variables in the causal model with representations in the Neural model and (2) training a neural model to match the counterfactual behavior of the causal model on a base input。
IITは完全に微分可能で、柔軟に他の目的と組み合わせ、ターゲット因果モデルがニューラルネットワークの因果抽象化であることを保証します。
論文 参考訳(メタデータ) (2021-12-01T21:07:01Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。