論文の概要: Can Out-of-Distribution Evaluations Uncover Reliance on Shortcuts? A Case Study in Question Answering
- arxiv url: http://arxiv.org/abs/2508.18407v1
- Date: Mon, 25 Aug 2025 18:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.559218
- Title: Can Out-of-Distribution Evaluations Uncover Reliance on Shortcuts? A Case Study in Question Answering
- Title(参考訳): アウト・オブ・ディストリビューション評価はショートカットの信頼性を明らかにすることができるか? : 質問応答を事例として
- Authors: Michal Štefánik, Timothee Mickus, Marek Kadlčík, Michal Spiegel, Josef Kuchař,
- Abstract要約: AIにおける最近の研究の大部分は、アウト・オブ・ディストリビューション(OOD)データセットのパフォーマンスのレンズを通じて、モデルの一般化能力を評価する。
我々はこの仮定に挑戦し、既存の質問応答モデル(QA)に記録された特定の障害モードのセットを用いてOOD評価の結果に反論する。
我々は、QAにおけるOOD評価に使用する異なるデータセットが、非常に異なる品質のショートカットに対してモデルの堅牢性を見積もっていることを発見した。
- 参考スコア(独自算出の注目度): 4.123456708238846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A majority of recent work in AI assesses models' generalization capabilities through the lens of performance on out-of-distribution (OOD) datasets. Despite their practicality, such evaluations build upon a strong assumption: that OOD evaluations can capture and reflect upon possible failures in a real-world deployment. In this work, we challenge this assumption and confront the results obtained from OOD evaluations with a set of specific failure modes documented in existing question-answering (QA) models, referred to as a reliance on spurious features or prediction shortcuts. We find that different datasets used for OOD evaluations in QA provide an estimate of models' robustness to shortcuts that have a vastly different quality, some largely under-performing even a simple, in-distribution evaluation. We partially attribute this to the observation that spurious shortcuts are shared across ID+OOD datasets, but also find cases where a dataset's quality for training and evaluation is largely disconnected. Our work underlines limitations of commonly-used OOD-based evaluations of generalization, and provides methodology and recommendations for evaluating generalization within and beyond QA more robustly.
- Abstract(参考訳): AIにおける最近の研究の大部分は、アウト・オブ・ディストリビューション(OOD)データセットのパフォーマンスのレンズを通じて、モデルの一般化能力を評価する。
その実用性にも拘わらず、そのような評価は、OOD評価が現実のデプロイメントで起こりうる失敗を捉え、反映できるという、強い前提に基づいている。
本稿では,この仮定に挑戦し,既存の質問応答(QA)モデルに記録されている一連の特定の障害モードを用いてOOD評価から得られた結果に対処する。
我々は、QAにおけるOOD評価に使用する異なるデータセットが、非常に異なる品質のショートカットに対してモデルの堅牢性を見積もっていることを発見した。
我々はこれを、ID+OODデータセット間で急激なショートカットが共有されているという観察結果と、データセットのトレーニングと評価の質が大半が切断されているケースに部分的に関連付けている。
本研究は,一般用 OOD を用いた一般化評価の限界を明らかにし,QA 内外における一般化評価の方法論と勧告を提供する。
関連論文リスト
- The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - A Survey on Evaluation of Out-of-Distribution Generalization [41.39827887375374]
アウト・オブ・ディストリビューション(OOD)の一般化は複雑で基本的な問題である。
本報告は,OOD評価の総合的な評価を行うための最初の試みである。
我々は,OOD性能試験,OOD性能予測,OOD固有の特性評価という3つのパラダイムに分類した。
論文 参考訳(メタデータ) (2024-03-04T09:30:35Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Towards Realistic Out-of-Distribution Detection: A Novel Evaluation
Framework for Improving Generalization in OOD Detection [14.541761912174799]
本稿では,OOD(Out-of-Distribution)検出のための新しい評価フレームワークを提案する。
より現実的な設定で機械学習モデルのパフォーマンスを評価することを目的としている。
論文 参考訳(メタデータ) (2022-11-20T07:30:15Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - ID and OOD Performance Are Sometimes Inversely Correlated on Real-world
Datasets [30.82918381331854]
コンピュータビジョンとNLPにおけるモデルの分布内(ID)と分布外(OOD)の性能を比較した。
いくつかの研究は、頻繁な正の相関を報告し、驚くべきことに、必要なトレードオフを示す逆相関を観測することはない。
本稿では,実世界のデータにおいて,IDとOOD性能の逆相関が生じることを複数のデータセットで示す。
論文 参考訳(メタデータ) (2022-09-01T17:27:25Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。
ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-26T20:58:05Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。