論文の概要: Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs
- arxiv url: http://arxiv.org/abs/2101.00674v1
- Date: Sun, 3 Jan 2021 17:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 01:42:12.866955
- Title: Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs
- Title(参考訳): 潜在文表現の再コード --動的勾配に基づくrnnのアクティベーション修飾
- Authors: Dennis Ulmer
- Abstract要約: RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Recurrent Neural Networks (RNNs), encoding information in a suboptimal or
erroneous way can impact the quality of representations based on later elements
in the sequence and subsequently lead to wrong predictions and a worse model
performance. In humans, challenging cases like garden path sentences (an
instance of this being the infamous "The horse raced past the barn fell") can
lead their language understanding astray. However, they are still able to
correct their representation accordingly and recover when new information is
encountered. Inspired by this, I propose an augmentation to standard RNNs in
form of a gradient-based correction mechanism: This way I hope to enable such
models to dynamically adapt their inner representation of a sentence, adding a
way to correct deviations as soon as they occur. This could therefore lead to
more robust models using more flexible representations, even during inference
time.
I conduct different experiments in the context of language modeling, where
the impact of using such a mechanism is examined in detail. To this end, I look
at modifications based on different kinds of time-dependent error signals and
how they influence the model performance. Furthermore, this work contains a
study of the model's confidence in its predictions during training and for
challenging test samples and the effect of the manipulation thereof. Lastly, I
also study the difference in behavior of these novel models compared to a
standard LSTM baseline and investigate error cases in detail to identify points
of future research. I show that while the proposed approach comes with
promising theoretical guarantees and an appealing intuition, it is only able to
produce minor improvements over the baseline due to challenges in its practical
application and the efficacy of the tested model variants.
- Abstract(参考訳): リカレントニューラルネットワーク(recurrent neural network、rnn)では、サブオプティマイズあるいは誤った方法で情報をエンコーディングすることは、シーケンス内の後の要素に基づいた表現の品質に影響を与える可能性がある。
人間では、庭の道の文(例えば「納屋を通り過ぎた馬」)のような困難な事例は、彼らの言語理解を混乱させる可能性がある。
しかし、新たな情報に遭遇すると、その表現を修正し、回復することができる。
このようなモデルが文の内的表現を動的に適応できるようにし、それらが生じたらすぐに逸脱を修正できるようにしたいと思っています。
したがって、推論時間中にも、より柔軟な表現を使用するより堅牢なモデルにつながる可能性がある。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
この目的のために、異なる種類の時間依存エラー信号に基づく修正と、モデル性能にどのように影響するかを考察する。
さらに本研究は,モデルの学習中の予測に対する自信と,テストサンプルへの挑戦と操作の効果についての研究を含む。
最後に,これらの新モデルと標準LSTMベースラインとの挙動の差異についても検討し,今後の研究の要点を特定するために,エラー事例を詳細に検討する。
提案手法には有望な理論的保証と魅力的な直観が伴うが,本手法の実用的適用と試験モデルの有効性の課題により,ベースラインに対する小さな改善しか得られないことを示す。
関連論文リスト
- Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Causality-aware counterfactual confounding adjustment for feature
representations learned by deep models [14.554818659491644]
因果モデリングは機械学習(ML)における多くの課題に対する潜在的な解決策として認識されている。
深層ニューラルネットワーク(DNN)モデルによって学習された特徴表現を分解するために、最近提案された対実的アプローチが依然として使われている方法について説明する。
論文 参考訳(メタデータ) (2020-04-20T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。