論文の概要: OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable?
- arxiv url: http://arxiv.org/abs/2410.02735v1
- Date: Thu, 3 Oct 2024 17:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:13:18.731608
- Title: OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable?
- Title(参考訳): OOD-Chameleon: OOD一般化のためのアルゴリズム選択は可能か?
- Authors: Liangze Jiang, Damien Teney,
- Abstract要約: OOD一般化のためのアルゴリズム選択のタスクを形式化し、学習によってアプローチできるかどうかを検討する。
我々は,OOD-Chameleonと呼ばれる手法を提案し,そのタスクを候補アルゴリズムに対する教師付き分類として扱う。
データセットの特徴からアルゴリズムの相対的な性能を予測するためにモデルを訓練する。
- 参考スコア(独自算出の注目度): 18.801143204410913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-distribution (OOD) generalization is challenging because distribution shifts come in many forms. A multitude of learning algorithms exist and each can improve performance in specific OOD situations. We posit that much of the challenge of OOD generalization lies in choosing the right algorithm for the right dataset. However, such algorithm selection is often elusive under complex real-world shifts. In this work, we formalize the task of algorithm selection for OOD generalization and investigate whether it could be approached by learning. We propose a solution, dubbed OOD-Chameleon that treats the task as a supervised classification over candidate algorithms. We construct a dataset of datasets to learn from, which represents diverse types, magnitudes and combinations of shifts (covariate shift, label shift, spurious correlations). We train the model to predict the relative performance of algorithms given a dataset's characteristics. This enables a priori selection of the best learning strategy, i.e. without training various models as needed with traditional model selection. Our experiments show that the adaptive selection outperforms any individual algorithm and simple selection heuristics, on unseen datasets of controllable and realistic image data. Inspecting the model shows that it learns non-trivial data/algorithms interactions, and reveals the conditions for any one algorithm to surpass another. This opens new avenues for (1) enhancing OOD generalization with existing algorithms instead of designing new ones, and (2) gaining insights into the applicability of existing algorithms with respect to datasets' properties.
- Abstract(参考訳): 分布シフトが多くの形で現れるので、アウト・オブ・ディストリビューション(OOD)の一般化は困難である。
多数の学習アルゴリズムが存在し、それぞれが特定のOOD状況におけるパフォーマンスを向上させることができる。
OOD一般化の課題の多くは、適切なデータセットに対して適切なアルゴリズムを選択することにあると仮定する。
しかし、そのようなアルゴリズムの選択は、しばしば複雑な実世界のシフトの下で解かれる。
本研究では,OOD一般化のためのアルゴリズム選択のタスクを形式化し,学習によるアプローチの可能性を検討する。
我々は,OOD-Chameleonと呼ばれる手法を提案し,そのタスクを候補アルゴリズムに対する教師付き分類として扱う。
そこから学習するデータセットのデータセットを構築し、さまざまなタイプ、大きさ、シフト(共変量シフト、ラベルシフト、スプリアス相関)の組み合わせを表現します。
データセットの特徴からアルゴリズムの相対的な性能を予測するためにモデルを訓練する。
これにより、従来のモデル選択で必要に応じて様々なモデルをトレーニングすることなく、最高の学習戦略の優先順位選択が可能になる。
実験により、適応選択は、制御可能で現実的な画像データの未知のデータセット上で、任意のアルゴリズムと単純な選択ヒューリスティックよりも優れていることが示された。
モデルを調べると、非自明なデータ/アルゴリズムの相互作用を学習し、あるアルゴリズムが別のアルゴリズムを超える条件を明らかにする。
これにより、(1)新しいアルゴリズムを設計する代わりに既存のアルゴリズムによるOOD一般化の強化、(2)データセットの特性に関する既存のアルゴリズムの適用性に関する洞察を得るための新たな道が開かれる。
関連論文リスト
- TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Sub-Setting Algorithm for Training Data Selection in Pattern Recognition [0.0]
本稿では,単純な構造を持つ複数のサブセットを識別するトレーニングデータ選択アルゴリズムを提案する。
サブセットアルゴリズムは、複数のサブセットを単純な局所パターンで識別し、インスタンスの近傍で類似したインスタンスを識別する。
我々のボトムアップサブセットアルゴリズムは、データセット全体から学んだトップダウン決定木よりも平均15%良い結果を得た。
論文 参考訳(メタデータ) (2021-10-13T06:42:41Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - Finding the Homology of Decision Boundaries with Active Learning [26.31885403636642]
本稿では,意思決定境界のホモロジーを回復するための能動的学習アルゴリズムを提案する。
我々のアルゴリズムは、ラベルを必要とするサンプルを逐次かつ適応的に選択する。
いくつかのデータセットの実験では、ホモロジーを回復する際のサンプルの複雑さの改善が示されている。
論文 参考訳(メタデータ) (2020-11-19T04:22:06Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。