論文の概要: Identifying and Benchmarking Natural Out-of-Context Prediction Problems
- arxiv url: http://arxiv.org/abs/2110.13223v1
- Date: Mon, 25 Oct 2021 19:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 09:53:09.814154
- Title: Identifying and Benchmarking Natural Out-of-Context Prediction Problems
- Title(参考訳): 自然文脈外予測問題の同定とベンチマーク
- Authors: David Madras, Richard Zemel
- Abstract要約: 自然に生じる「カオス集合」の集合 NOOCh について述べる。
我々は、特定のOOC障害モードを探索するために、コンテキストの様々な概念がどのように使用できるかを示す。
実験では,これらの課題に対する様々な学習手法のトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 8.86560329408497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning systems frequently fail at out-of-context (OOC) prediction, the
problem of making reliable predictions on uncommon or unusual inputs or
subgroups of the training distribution. To this end, a number of benchmarks for
measuring OOC performance have recently been introduced. In this work, we
introduce a framework unifying the literature on OOC performance measurement,
and demonstrate how rich auxiliary information can be leveraged to identify
candidate sets of OOC examples in existing datasets. We present NOOCh: a suite
of naturally-occurring "challenge sets", and show how varying notions of
context can be used to probe specific OOC failure modes. Experimentally, we
explore the tradeoffs between various learning approaches on these challenge
sets and demonstrate how the choices made in designing OOC benchmarks can yield
varying conclusions.
- Abstract(参考訳): ディープラーニングシステムは、トレーニング分布の異常な入力やサブグループに対して、信頼性の高い予測を行うという問題である、文脈外予測(OOC)でしばしば失敗する。
この目的のために、OOC性能を測定するためのベンチマークが最近紹介されている。
本研究では,OOC性能測定の文献を統一するフレームワークを導入し,既存のデータセットにおけるOCOの候補セットを特定するために,リッチな補助情報をいかに活用できるかを示す。
自然に生じる「カオス集合」のスイートであるNOOChを提示し、特定のOOC障害モードを探索するために、コンテキストの異なる概念がどのように使用できるかを示す。
実験として,これらの課題セットに対する様々な学習アプローチのトレードオフを考察し,oocベンチマークの設計における選択が様々な結論をもたらすことを示す。
関連論文リスト
- CohEx: A Generalized Framework for Cohort Explanation [5.269665407562217]
コホートの説明は、特定のグループや事例のコホートにおける説明者の振る舞いに関する洞察を与える。
本稿では,コホートの説明を測る上でのユニークな課題と機会について論じる。
論文 参考訳(メタデータ) (2024-10-17T03:36:18Z) - Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。
生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。
我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文 参考訳(メタデータ) (2024-08-09T12:23:36Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Predictive Inference in Multi-environment Scenarios [18.324321417099394]
有効な信頼区間を構築するという課題に対処し、複数の環境にまたがる予測の問題に対処する。
我々は、非伝統的で階層的なデータ生成シナリオにおいて、分散のないカバレッジを得る方法を示すために、Jackknifeとsplit-conformalメソッドを拡張します。
コントリビューションには、非実測値応答の設定の拡張、これらの一般的な問題における予測推論の一貫性の理論、条件付きカバレッジの限界に関する洞察が含まれる。
論文 参考訳(メタデータ) (2024-03-25T00:21:34Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Evaluating Online Continual Learning with CALM [3.49781504808707]
オンライン連続学習は、1つ以上の例を観察することなく、連続したデータストリームを通じて学習する。
本稿では,言語モデリングに基づくOCLの新しいベンチマークを提案する。
また、この設定における破滅的忘れについての新しい指標を提案し、専門家の組成に基づいて複数のベースラインモデルを評価する。
論文 参考訳(メタデータ) (2020-04-07T13:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。