Fugu-MT 論文翻訳(概要): Identifying and Benchmarking Natural Out-of-Context Prediction Problems

論文の概要: Identifying and Benchmarking Natural Out-of-Context Prediction Problems

arxiv url: http://arxiv.org/abs/2110.13223v1
Date: Mon, 25 Oct 2021 19:15:47 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-28 09:53:09.814154
Title: Identifying and Benchmarking Natural Out-of-Context Prediction Problems
Title（参考訳）: 自然文脈外予測問題の同定とベンチマーク
Authors: David Madras, Richard Zemel
Abstract要約: 自然に生じる「カオス集合」の集合 NOOCh について述べる。我々は、特定のOOC障害モードを探索するために、コンテキストの様々な概念がどのように使用できるかを示す。実験では,これらの課題に対する様々な学習手法のトレードオフについて検討する。
参考スコア（独自算出の注目度）: 8.86560329408497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning systems frequently fail at out-of-context (OOC) prediction, the problem of making reliable predictions on uncommon or unusual inputs or subgroups of the training distribution. To this end, a number of benchmarks for measuring OOC performance have recently been introduced. In this work, we introduce a framework unifying the literature on OOC performance measurement, and demonstrate how rich auxiliary information can be leveraged to identify candidate sets of OOC examples in existing datasets. We present NOOCh: a suite of naturally-occurring "challenge sets", and show how varying notions of context can be used to probe specific OOC failure modes. Experimentally, we explore the tradeoffs between various learning approaches on these challenge sets and demonstrate how the choices made in designing OOC benchmarks can yield varying conclusions.
Abstract（参考訳）: ディープラーニングシステムは、トレーニング分布の異常な入力やサブグループに対して、信頼性の高い予測を行うという問題である、文脈外予測(OOC)でしばしば失敗する。この目的のために、OOC性能を測定するためのベンチマークが最近紹介されている。本研究では,OOC性能測定の文献を統一するフレームワークを導入し,既存のデータセットにおけるOCOの候補セットを特定するために,リッチな補助情報をいかに活用できるかを示す。自然に生じる「カオス集合」のスイートであるNOOChを提示し、特定のOOC障害モードを探索するために、コンテキストの異なる概念がどのように使用できるかを示す。実験として,これらの課題セットに対する様々な学習アプローチのトレードオフを考察し,oocベンチマークの設計における選択が様々な結論をもたらすことを示す。

関連論文リスト

Q-Learning with Clustered-SMART (cSMART) Data: Examining Moderators in the Construction of Clustered Adaptive Interventions [3.9650359172757743]
クラスタ適応介入(cAI)は、結果を改善するためにクラスタレベルの介入をどのように調整するかを実践者の指導する一連の決定ルールである。 M-out-of-N Cluster Bootstrapを用いたクラスタ型Qラーニングフレームワークを導入し、最適なcAIを定義する上で、候補の調整変数のセットが有用かどうかを評価する。
論文参考訳（メタデータ） (2025-05-01T19:24:39Z)
StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文参考訳（メタデータ） (2025-01-27T00:05:12Z)
On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文参考訳（メタデータ） (2024-11-05T00:16:01Z)
CohEx: A Generalized Framework for Cohort Explanation [5.269665407562217]
コホートの説明は、特定のグループや事例のコホートにおける説明者の振る舞いに関する洞察を与える。本稿では,コホートの説明を測る上でのユニークな課題と機会について論じる。
論文参考訳（メタデータ） (2024-10-17T03:36:18Z)
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文参考訳（メタデータ） (2024-08-09T12:23:36Z)
Two Is Better Than One: Aligned Representation Pairs for Anomaly Detection [56.57122939745213]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。近年の自己教師型手法は, 異常に関する事前知識を用いて, トレーニング中に合成外れ値を生成することによって, それらの表現をうまく学習している。この制限は、通常のサンプルにおける対称性に関する事前の知識を活用して、異なるコンテキストでデータを観測する、新しいアプローチであるCon$で対処する。
論文参考訳（メタデータ） (2024-05-29T07:59:06Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
Predictive Inference in Multi-environment Scenarios [18.324321417099394]
有効な信頼区間を構築するという課題に対処し、複数の環境にまたがる予測の問題に対処する。我々は、非伝統的で階層的なデータ生成シナリオにおいて、分散のないカバレッジを得る方法を示すために、Jackknifeとsplit-conformalメソッドを拡張します。コントリビューションには、非実測値応答の設定の拡張、これらの一般的な問題における予測推論の一貫性の理論、条件付きカバレッジの限界に関する洞察が含まれる。
論文参考訳（メタデータ） (2024-03-25T00:21:34Z)
Towards Out-of-Distribution Sequential Event Prediction: A Causal Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-24T07:54:13Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文参考訳（メタデータ） (2022-02-28T18:09:44Z)
On Covariate Shift of Latent Confounders in Imitation and Reinforcement Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文参考訳（メタデータ） (2021-10-13T07:31:31Z)
Evaluating Online Continual Learning with CALM [3.49781504808707]
オンライン連続学習は、1つ以上の例を観察することなく、連続したデータストリームを通じて学習する。本稿では,言語モデリングに基づくOCLの新しいベンチマークを提案する。また、この設定における破滅的忘れについての新しい指標を提案し、専門家の組成に基づいて複数のベースラインモデルを評価する。
論文参考訳（メタデータ） (2020-04-07T13:17:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。