論文の概要: LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies
- arxiv url: http://arxiv.org/abs/2407.16067v1
- Date: Mon, 22 Jul 2024 21:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 19:15:20.041385
- Title: LCA-on-the-Line: Benchmarking Out-of-Distribution Generalization with Class Taxonomies
- Title(参考訳): LCA-on-the-Line: Class Taxonomiesによるアウト・オブ・ディストリビューションの一般化のベンチマーク
- Authors: Jia Shi, Gautam Gare, Jinjin Tian, Siqi Chai, Zhiqiu Lin, Arun Vasudevan, Di Feng, Francesco Ferroni, Shu Kong,
- Abstract要約: 我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
本稿では,ラベルと予測との階層的距離を予め定義されたクラス階層内で測定するLCA(Lowest Common Ancestor)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 22.100031612580356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the challenge of predicting models' Out-of-Distribution (OOD) performance using in-distribution (ID) measurements without requiring OOD data. Existing evaluations with "Effective Robustness", which use ID accuracy as an indicator of OOD accuracy, encounter limitations when models are trained with diverse supervision and distributions, such as class labels (Vision Models, VMs, on ImageNet) and textual descriptions (Visual-Language Models, VLMs, on LAION). VLMs often generalize better to OOD data than VMs despite having similar or lower ID performance. To improve the prediction of models' OOD performance from ID measurements, we introduce the Lowest Common Ancestor (LCA)-on-the-Line framework. This approach revisits the established concept of LCA distance, which measures the hierarchical distance between labels and predictions within a predefined class hierarchy, such as WordNet. We assess 75 models using ImageNet as the ID dataset and five significantly shifted OOD variants, uncovering a strong linear correlation between ID LCA distance and OOD top-1 accuracy. Our method provides a compelling alternative for understanding why VLMs tend to generalize better. Additionally, we propose a technique to construct a taxonomic hierarchy on any dataset using K-means clustering, demonstrating that LCA distance is robust to the constructed taxonomic hierarchy. Moreover, we demonstrate that aligning model predictions with class taxonomies, through soft labels or prompt engineering, can enhance model generalization. Open source code in our Project Page: https://elvishelvis.github.io/papers/lca/.
- Abstract(参考訳): 我々は,OODデータを必要とせず,内分布(ID)測定によるモデル外分布(OOD)性能の予測に挑戦する。
既存の評価では、OOD精度の指標としてID精度を使用する"Effective Robustness"を使用して、クラスラベル(Vision Models, VMs, on ImageNet)やテキスト記述(Visual-Language Models, VLMs, on LAION)など、さまざまな監視と配布でトレーニングされたモデルに遭遇する制限がある。
VLMは、同じまたは低いID性能にもかかわらず、VMよりもOODデータによく一般化する。
ID測定によるモデルのOOD性能の予測を改善するため,Lowest Common Ancestor(LCA)-on-the-Lineフレームワークを提案する。
このアプローチは、WordNetのような事前に定義されたクラス階層内のラベルと予測の間の階層的距離を測定する、確立されたLCA距離の概念を再考する。
我々は、IDデータセットとしてImageNetを用いて75のモデルを評価し、5つのOOD変異体を比較し、ID LCA距離とOOD Top-1精度の強い線形相関を明らかにする。
我々の手法は、VLMがより一般化する傾向がある理由を理解するための説得力のある代替手段を提供する。
さらに、K平均クラスタリングを用いて、任意のデータセットに分類階層を構築する手法を提案し、LCA距離が構築された分類階層に対して堅牢であることを示す。
さらに、ソフトラベルやプロンプトエンジニアリングによるモデル予測とクラス分類との整合性を示すことにより、モデルの一般化が促進されることを示す。
プロジェクトのページにあるオープンソースコード: https://elvishelvis.github.io/papers/lca/。
関連論文リスト
- DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Semantically Coherent Out-of-Distribution Detection [26.224146828317277]
現在のアウト・オブ・ディストリビューション(OOD)検出ベンチマークは、ひとつのデータセットをイン・ディストリビューション(ID)として定義し、他のすべてのデータセットをOODとして定義することで、一般的に構築されている。
ベンチマークを再設計し、セマンティック・コヒーレント・アウト・オブ・ディストリビューション検出(SC-OOD)を提案する。
本手法は,SC-OODベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-26T17:53:32Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。