論文の概要: Cross-functional Analysis of Generalisation in Behavioural Learning
- arxiv url: http://arxiv.org/abs/2305.12951v1
- Date: Mon, 22 May 2023 11:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:21:30.962452
- Title: Cross-functional Analysis of Generalisation in Behavioural Learning
- Title(参考訳): 行動学習における一般化のクロスファンクショナル解析
- Authors: Pedro Henrique Luz de Araujo and Benjamin Roth
- Abstract要約: 本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。
集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
- 参考スコア(独自算出の注目度): 4.0810783261728565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In behavioural testing, system functionalities underrepresented in the
standard evaluation setting (with a held-out test set) are validated through
controlled input-output pairs. Optimising performance on the behavioural tests
during training (behavioural learning) would improve coverage of phenomena not
sufficiently represented in the i.i.d. data and could lead to seemingly more
robust models. However, there is the risk that the model narrowly captures
spurious correlations from the behavioural test suite, leading to
overestimation and misrepresentation of model performance -- one of the
original pitfalls of traditional evaluation. In this work, we introduce BeLUGA,
an analysis method for evaluating behavioural learning considering
generalisation across dimensions of different granularity levels. We optimise
behaviour-specific loss functions and evaluate models on several partitions of
the behavioural test suite controlled to leave out specific phenomena. An
aggregate score measures generalisation to unseen functionalities (or
overfitting). We use BeLUGA to examine three representative NLP tasks
(sentiment analysis, paraphrase identification and reading comprehension) and
compare the impact of a diverse set of regularisation and domain generalisation
methods on generalisation performance.
- Abstract(参考訳): 振舞いテストでは、標準評価設定(ホールドアウトテストセット)で示されるシステム機能について、制御された入出力ペアを通して検証する。
トレーニング中の行動テストのパフォーマンスの最適化(行動学習)は、i.d.データに十分に表現されていない現象のカバレッジを改善し、より堅牢なモデルにつながる可能性がある。
しかしながら、モデルが行動テストスイートから急激な相関関係を狭く捉え、モデルパフォーマンスの過大評価と誤表現につながるリスクがある。
本研究では,粒度の異なる次元における一般化を考慮した行動学習の評価手法であるBeLUGAを紹介する。
動作特有の損失関数を最適化し、特定の現象を除外するために制御された動作テストスイートのいくつかのパーティション上のモデルを評価する。
アグリゲートスコアは、見えない機能(あるいは過剰な機能)への一般化を測定する。
本稿では,BLUGAを用いて3つの代表的NLPタスク(感性分析,パラフレーズ識別,読解理解)について検討し,多種多様な正規化手法と領域一般化手法が一般化性能に与える影響を比較した。
関連論文リスト
- Preserving Silent Features for Domain Generalization [6.568921669414849]
自己教師付きコントラスト学習事前学習モデルは、DG設定で同じデータセット上で事前訓練された教師付きモデルよりも優れた一般化性能を示す。
本稿では,STEP(Silent Feature Preservation)と呼ばれる簡易かつ効果的な手法を提案し,自己教師付きコントラスト学習事前学習モデルの一般化性能を向上させる。
論文 参考訳(メタデータ) (2024-01-06T09:11:41Z) - Understanding Generalization of Federated Learning via Stability:
Heterogeneity Matters [1.4502611532302039]
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
論文 参考訳(メタデータ) (2023-06-06T16:12:35Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection [4.0810783261728565]
本稿では,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いた微調整方式について検討する。
テストケースのカテゴリを保持して,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整処理により,保持機能と同一性群の分類精度が向上した。
しかし, 保留機能クラスやヘイトスピーチ検出データの性能は低下し, 一般化は多種多様であった。
論文 参考訳(メタデータ) (2022-04-08T13:03:01Z) - Look-Ahead Acquisition Functions for Bernoulli Level Set Estimation [9.764638397706717]
サブレベル設定メンバーシップのルックアヘッド後部に対する解析式を導出する。
これらがLSE獲得関数のクラスに対する解析的表現にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2022-03-18T05:25:35Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。