論文の概要: Identifying and Benchmarking Natural Out-of-Context Prediction Problems
- arxiv url: http://arxiv.org/abs/2110.13223v1
- Date: Mon, 25 Oct 2021 19:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 09:53:09.814154
- Title: Identifying and Benchmarking Natural Out-of-Context Prediction Problems
- Title(参考訳): 自然文脈外予測問題の同定とベンチマーク
- Authors: David Madras, Richard Zemel
- Abstract要約: 自然に生じる「カオス集合」の集合 NOOCh について述べる。
我々は、特定のOOC障害モードを探索するために、コンテキストの様々な概念がどのように使用できるかを示す。
実験では,これらの課題に対する様々な学習手法のトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 8.86560329408497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning systems frequently fail at out-of-context (OOC) prediction, the
problem of making reliable predictions on uncommon or unusual inputs or
subgroups of the training distribution. To this end, a number of benchmarks for
measuring OOC performance have recently been introduced. In this work, we
introduce a framework unifying the literature on OOC performance measurement,
and demonstrate how rich auxiliary information can be leveraged to identify
candidate sets of OOC examples in existing datasets. We present NOOCh: a suite
of naturally-occurring "challenge sets", and show how varying notions of
context can be used to probe specific OOC failure modes. Experimentally, we
explore the tradeoffs between various learning approaches on these challenge
sets and demonstrate how the choices made in designing OOC benchmarks can yield
varying conclusions.
- Abstract(参考訳): ディープラーニングシステムは、トレーニング分布の異常な入力やサブグループに対して、信頼性の高い予測を行うという問題である、文脈外予測(OOC)でしばしば失敗する。
この目的のために、OOC性能を測定するためのベンチマークが最近紹介されている。
本研究では,OOC性能測定の文献を統一するフレームワークを導入し,既存のデータセットにおけるOCOの候補セットを特定するために,リッチな補助情報をいかに活用できるかを示す。
自然に生じる「カオス集合」のスイートであるNOOChを提示し、特定のOOC障害モードを探索するために、コンテキストの異なる概念がどのように使用できるかを示す。
実験として,これらの課題セットに対する様々な学習アプローチのトレードオフを考察し,oocベンチマークの設計における選択が様々な結論をもたらすことを示す。
関連論文リスト
- StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。
通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。
また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文 参考訳(メタデータ) (2025-01-27T00:05:12Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - CohEx: A Generalized Framework for Cohort Explanation [5.269665407562217]
コホートの説明は、特定のグループや事例のコホートにおける説明者の振る舞いに関する洞察を与える。
本稿では,コホートの説明を測る上でのユニークな課題と機会について論じる。
論文 参考訳(メタデータ) (2024-10-17T03:36:18Z) - Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。
生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。
我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文 参考訳(メタデータ) (2024-08-09T12:23:36Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Evaluating Online Continual Learning with CALM [3.49781504808707]
オンライン連続学習は、1つ以上の例を観察することなく、連続したデータストリームを通じて学習する。
本稿では,言語モデリングに基づくOCLの新しいベンチマークを提案する。
また、この設定における破滅的忘れについての新しい指標を提案し、専門家の組成に基づいて複数のベースラインモデルを評価する。
論文 参考訳(メタデータ) (2020-04-07T13:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。