論文の概要: Towards a Better Evaluation of Out-of-Domain Generalization
- arxiv url: http://arxiv.org/abs/2405.19703v1
- Date: Thu, 30 May 2024 05:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 17:57:08.585145
- Title: Towards a Better Evaluation of Out-of-Domain Generalization
- Title(参考訳): 外部一般化のより良い評価に向けて
- Authors: Duhun Hwang, Suhyun Kang, Moonjung Eo, Jimyeong Kim, Wonjong Rhee,
- Abstract要約: ドメイン・ジェネリゼーション(Domain Generalization, DG)とは、未確認のテスト分布において高い性能を達成するアルゴリズムとモデルを考案することである。
平均測度は、モデルを評価し、アルゴリズムを比較するための代表的な尺度として使われてきた。
我々は,平均値に対するロバストな代替手段として,最悪の+ギャップ測度を提案する。
- 参考スコア(独自算出の注目度): 1.8175282137722089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of Domain Generalization (DG) is to devise algorithms and models capable of achieving high performance on previously unseen test distributions. In the pursuit of this objective, average measure has been employed as the prevalent measure for evaluating models and comparing algorithms in the existing DG studies. Despite its significance, a comprehensive exploration of the average measure has been lacking and its suitability in approximating the true domain generalization performance has been questionable. In this study, we carefully investigate the limitations inherent in the average measure and propose worst+gap measure as a robust alternative. We establish theoretical grounds of the proposed measure by deriving two theorems starting from two different assumptions. We conduct extensive experimental investigations to compare the proposed worst+gap measure with the conventional average measure. Given the indispensable need to access the true DG performance for studying measures, we modify five existing datasets to come up with SR-CMNIST, C-Cats&Dogs, L-CIFAR10, PACS-corrupted, and VLCS-corrupted datasets. The experiment results unveil an inferior performance of the average measure in approximating the true DG performance and confirm the robustness of the theoretically supported worst+gap measure.
- Abstract(参考訳): ドメイン一般化(Domain Generalization, DG)の目的は、これまで見つからなかったテストディストリビューションで高いパフォーマンスを達成するアルゴリズムとモデルを考案することである。
この目的を追求するために、既存のDG研究において、モデルの評価とアルゴリズムの比較のための一般的な尺度として平均測度が採用されている。
その重要性にもかかわらず、平均測度に関する包括的な探索は欠如しており、真の領域一般化性能の近似に適合する可能性は疑問視されている。
本研究では,平均測度に固有の限界を慎重に検討し,ロバストな代替手段として最悪の+ギャップ測度を提案する。
2つの異なる仮定から始まる2つの定理を導出することにより、提案された測度の理論的根拠を確立する。
提案手法と従来の平均値とを比較検討した。
測定のための真のDGパフォーマンスにアクセスする必要がなくなると、SR-CMNIST、C-Cats&Dogs、L-CIFAR10、PACS崩壊データセット、VLCS崩壊データセットの5つの既存のデータセットを変更します。
実験結果は, 真のDG性能を近似し, 理論的に支持された最悪の+ギャップ測定値のロバスト性を確認する上で, 平均測定値が劣ることを示した。
関連論文リスト
- Targeted Machine Learning for Average Causal Effect Estimation Using the
Front-Door Functional [3.0232957374216953]
結果に対する治療の平均因果効果(ACE)を評価することは、しばしば観察研究における要因の相違によって引き起こされる課題を克服することを伴う。
本稿では,目標最小損失推定理論に基づいて,正面基準の新たな推定手法を提案する。
本研究では,早期学業成績が今後の年収に与える影響を明らかにするために,これらの推定装置の適用性を示す。
論文 参考訳(メタデータ) (2023-12-15T22:04:53Z) - MADG: Margin-based Adversarial Learning for Domain Generalization [25.45950080930517]
そこで本稿では,差分損失に基づく離散性尺度に基づく新しい逆学習DGアルゴリズムMADGを提案する。
提案したMADGモデルは,すべてのソースドメインにまたがるドメイン不変の特徴を学習し,敵対的トレーニングを用いて,未知のターゲットドメインによく適応する。
我々は、人気のある実世界のDGデータセット上でMADGモデルを広範囲に実験した。
論文 参考訳(メタデータ) (2023-11-14T19:53:09Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Distributionally Robust Causal Inference with Observational Data [4.8986598953553555]
非確立性の標準的な仮定を伴わない観察研究における平均治療効果の推定を考察する。
本稿では,無観測の共同設立者が存在する可能性を考慮した,一般的な観察研究環境下での堅牢な因果推論の枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-15T16:02:33Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - On Certifying and Improving Generalization to Unseen Domains [87.00662852876177]
ドメインの一般化は、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としています。
いくつかのベンチマークデータセットを使用して、DGアルゴリズムを包括的に評価することは困難である。
我々は,任意のDG手法の最悪の性能を効率的に証明できる普遍的な認証フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T16:29:43Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。