論文の概要: Cross-functional Analysis of Generalisation in Behavioural Learning
- arxiv url: http://arxiv.org/abs/2305.12951v1
- Date: Mon, 22 May 2023 11:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:21:30.962452
- Title: Cross-functional Analysis of Generalisation in Behavioural Learning
- Title(参考訳): 行動学習における一般化のクロスファンクショナル解析
- Authors: Pedro Henrique Luz de Araujo and Benjamin Roth
- Abstract要約: 本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。
集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
- 参考スコア(独自算出の注目度): 4.0810783261728565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In behavioural testing, system functionalities underrepresented in the
standard evaluation setting (with a held-out test set) are validated through
controlled input-output pairs. Optimising performance on the behavioural tests
during training (behavioural learning) would improve coverage of phenomena not
sufficiently represented in the i.i.d. data and could lead to seemingly more
robust models. However, there is the risk that the model narrowly captures
spurious correlations from the behavioural test suite, leading to
overestimation and misrepresentation of model performance -- one of the
original pitfalls of traditional evaluation. In this work, we introduce BeLUGA,
an analysis method for evaluating behavioural learning considering
generalisation across dimensions of different granularity levels. We optimise
behaviour-specific loss functions and evaluate models on several partitions of
the behavioural test suite controlled to leave out specific phenomena. An
aggregate score measures generalisation to unseen functionalities (or
overfitting). We use BeLUGA to examine three representative NLP tasks
(sentiment analysis, paraphrase identification and reading comprehension) and
compare the impact of a diverse set of regularisation and domain generalisation
methods on generalisation performance.
- Abstract(参考訳): 振舞いテストでは、標準評価設定(ホールドアウトテストセット)で示されるシステム機能について、制御された入出力ペアを通して検証する。
トレーニング中の行動テストのパフォーマンスの最適化(行動学習)は、i.d.データに十分に表現されていない現象のカバレッジを改善し、より堅牢なモデルにつながる可能性がある。
しかしながら、モデルが行動テストスイートから急激な相関関係を狭く捉え、モデルパフォーマンスの過大評価と誤表現につながるリスクがある。
本研究では,粒度の異なる次元における一般化を考慮した行動学習の評価手法であるBeLUGAを紹介する。
動作特有の損失関数を最適化し、特定の現象を除外するために制御された動作テストスイートのいくつかのパーティション上のモデルを評価する。
アグリゲートスコアは、見えない機能(あるいは過剰な機能)への一般化を測定する。
本稿では,BLUGAを用いて3つの代表的NLPタスク(感性分析,パラフレーズ識別,読解理解)について検討し,多種多様な正規化手法と領域一般化手法が一般化性能に与える影響を比較した。
関連論文リスト
- An Auditing Test To Detect Behavioral Shift in Language Models [28.52295230939529]
本稿では,言語モデルにおける連続的行動シフト監査(BSA)手法を提案する。
BSAはモデル世代のみを通して行動シフトを検出する。
このテストは、数百の例を使って、行動分布の有意義な変化を検出することができる。
論文 参考訳(メタデータ) (2024-10-25T09:09:31Z) - Generalization Ability of Feature-based Performance Prediction Models: A Statistical Analysis across Benchmarks [5.170967632369504]
本研究では,問題収集の統計的類似性と,探索ランドスケープ解析の特徴に基づく性能予測モデルの精度を比較した。
この2つの尺度には正の相関関係があることが観察された。
具体的には、トレーニングスイートとテストスイート間の高次元特徴値分布に統計的意義が欠如している場合、モデルをうまく一般化する傾向にある。
論文 参考訳(メタデータ) (2024-05-20T12:39:24Z) - Preserving Silent Features for Domain Generalization [6.568921669414849]
自己教師付きコントラスト学習事前学習モデルは、DG設定で同じデータセット上で事前訓練された教師付きモデルよりも優れた一般化性能を示す。
本稿では,STEP(Silent Feature Preservation)と呼ばれる簡易かつ効果的な手法を提案し,自己教師付きコントラスト学習事前学習モデルの一般化性能を向上させる。
論文 参考訳(メタデータ) (2024-01-06T09:11:41Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - SimSCOOD: Systematic Analysis of Out-of-Distribution Generalization in
Fine-tuned Source Code Models [58.78043959556283]
本研究は,Low-Rank Adaptation (LoRA)ファインチューニング手法を含む,異なる微調整手法によるモデルの挙動について検討する。
解析の結果、LoRAファインチューニングは様々なシナリオにおけるフルファインチューニングよりも、OODの一般化性能が大幅に向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-10T16:07:24Z) - Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection [4.0810783261728565]
本稿では,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いた微調整方式について検討する。
テストケースのカテゴリを保持して,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整処理により,保持機能と同一性群の分類精度が向上した。
しかし, 保留機能クラスやヘイトスピーチ検出データの性能は低下し, 一般化は多種多様であった。
論文 参考訳(メタデータ) (2022-04-08T13:03:01Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。