論文の概要: Mediators in Determining what Processing BERT Performs First
- arxiv url: http://arxiv.org/abs/2104.06400v1
- Date: Tue, 13 Apr 2021 17:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 14:47:58.611922
- Title: Mediators in Determining what Processing BERT Performs First
- Title(参考訳): BERT処理が最初に実行するものを決定するメディエータ
- Authors: Aviv Slobodkin, Leshem Choshen, Omri Abend
- Abstract要約: 我々は、予測の文脈長、すなわち、予測を行うのに必要な処理が最小限であるスパンの長さを考える。
コンテクスト長を制御できないことは,ネットワークの局所化パターンに矛盾する結論をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 35.32217580058933
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Probing neural models for the ability to perform downstream tasks using their
activation patterns is often used to localize what parts of the network
specialize in performing what tasks. However, little work addressed potential
mediating factors in such comparisons. As a test-case mediating factor, we
consider the prediction's context length, namely the length of the span whose
processing is minimally required to perform the prediction. We show that not
controlling for context length may lead to contradictory conclusions as to the
localization patterns of the network, depending on the distribution of the
probing dataset. Indeed, when probing BERT with seven tasks, we find that it is
possible to get 196 different rankings between them when manipulating the
distribution of context lengths in the probing dataset. We conclude by
presenting best practices for conducting such comparisons in the future.
- Abstract(参考訳): アクティベーションパターンを使用して下流タスクを実行するためのニューラルネットワークは、ネットワークのどの部分がどのタスクを実行するかをローカライズするためにしばしば使用される。
しかし、このような比較において潜在的な媒介要因に対処する研究はほとんどなかった。
テストケース調停因子として,予測の文脈長,すなわち予測を行うのに処理が最小限の処理を必要とするスパンの長さを考える。
文脈長の制御を行わないことは,探索データセットの分布に依存するネットワークの局在パターンに関して矛盾する結論をもたらす可能性がある。
実際、7つのタスクでbertを検索すると、probingデータセットでコンテキスト長の分布を操作すると、それら間で196の異なるランキングを得ることができる。
最後に,このような比較を行うためのベストプラクティスを今後提示する。
関連論文リスト
- Multi-Task Self-Supervised Time-Series Representation Learning [3.31490164885582]
時系列表現学習は、時間的ダイナミクスとスパースラベルを持つデータから表現を抽出することができる。
自己教師型タスクの利点を組み合わせた時系列表現学習手法を提案する。
本稿では,時系列分類,予測,異常検出という3つのダウンストリームタスクの枠組みについて検討する。
論文 参考訳(メタデータ) (2023-03-02T07:44:06Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Wasserstein Task Embedding for Measuring Task Similarities [14.095478018850374]
異なるタスク間の類似度を測定することは、幅広い機械学習問題において重要である。
最適輸送理論を活用し、教師付き分類のための新しいタスク埋め込みを定義する。
提案手法の組込みは, 関連する手法と比較して, タスクの比較を著しく高速化することを示した。
論文 参考訳(メタデータ) (2022-08-24T18:11:04Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Time-series Imputation and Prediction with Bi-Directional Generative
Adversarial Networks [0.3162999570707049]
本稿では,不規則に観測された時系列データと不規則なエントリを含む長さの時系列データの計算と予測を併用したタスクのモデルを提案する。
我々のモデルは、入力時間ステップ(予測)の内側または外側の欠落した要素をインプットする方法を学び、したがって、時系列データに有効な任意の時間予測ツールとして機能する。
論文 参考訳(メタデータ) (2020-09-18T15:47:51Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。