論文の概要: What is the Right Notion of Distance between Predict-then-Optimize Tasks?
- arxiv url: http://arxiv.org/abs/2409.06997v1
- Date: Wed, 11 Sep 2024 04:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:47:11.584432
- Title: What is the Right Notion of Distance between Predict-then-Optimize Tasks?
- Title(参考訳): 予測時最適タスク間の距離の正しい表記は何か?
- Authors: Paula Rodriguez-Diaz, Lingkai Kong, Kai Wang, David Alvarez-Melis, Milind Tambe,
- Abstract要約: 特徴量やラベル次元にのみ依存する従来のデータセット距離は,PtO(Predict-then-then-then)の文脈では情報性が欠如していることが示される。
下流決定の影響を組み込んだ新しいデータセット距離を提案する。
以上の結果から,この決定認識データセット距離は,PtOコンテキストにおける適応成功を効果的に捉えていることが明らかとなった。
- 参考スコア(独自算出の注目度): 35.842182348661076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comparing datasets is a fundamental task in machine learning, essential for various learning paradigms; from evaluating train and test datasets for model generalization to using dataset similarity for detecting data drift. While traditional notions of dataset distances offer principled measures of similarity, their utility has largely been assessed through prediction error minimization. However, in Predict-then-Optimize (PtO) frameworks, where predictions serve as inputs for downstream optimization tasks, model performance is measured through decision regret minimization rather than prediction error minimization. In this work, we (i) show that traditional dataset distances, which rely solely on feature and label dimensions, lack informativeness in the PtO context, and (ii) propose a new dataset distance that incorporates the impacts of downstream decisions. Our results show that this decision-aware dataset distance effectively captures adaptation success in PtO contexts, providing a PtO adaptation bound in terms of dataset distance. Empirically, we show that our proposed distance measure accurately predicts transferability across three different PtO tasks from the literature.
- Abstract(参考訳): データセットの比較は、モデル一般化のためのトレーニングデータセットとテストデータセットの評価から、データドリフトの検出にデータセット類似性を使用するまで、さまざまな学習パラダイムに不可欠な機械学習の基本的なタスクである。
従来のデータセット距離の概念は類似性の原則的尺度を提供するが、その実用性は予測誤差の最小化によって評価されてきた。
しかし、下流最適化タスクの入力として予測が機能するPredict-then-Optimize (PtO)フレームワークでは、モデル性能は予測エラーの最小化ではなく、決定後悔の最小化によって測定される。
この作品では、
i) 特徴量やラベル次元のみに依存する従来のデータセット距離は、PtOコンテキストにおいて情報性が欠如していることを示し、
(II)下流決定の影響を組み込んだ新しいデータセット距離を提案する。
以上の結果から,この決定対応データセット距離は,PtOコンテキストにおける適応成功を効果的に捉え,データセット距離の点でPtO適応性を実現することが示唆された。
実験により,提案手法は文献から3つの異なるPtOタスク間での伝達可能性を正確に予測する。
関連論文リスト
- RealTraj: Towards Real-World Pedestrian Trajectory Forecasting [10.332817296500533]
本稿では,軌道予測の現実的適用性を高める新しいフレームワークであるRealTrajを提案する。
Det2TrajFormerは、過去の検出を入力として、ノイズの追跡に不変な軌道予測モデルである。
従来のトラジェクトリ予測手法とは異なり,本手法では,地平線検出のみを用いてモデルを微調整し,コストのかかる個人IDアノテーションの必要性を著しく低減する。
論文 参考訳(メタデータ) (2024-11-26T12:35:26Z) - Improving Transferability for Cross-domain Trajectory Prediction via
Neural Stochastic Differential Equation [41.09061877498741]
外部要因とデータ取得戦略によるデータセット間での相違がある。
大規模データセットでトレーニングされたモデルの熟練した性能は、他の小規模データセットでの転送可能性に制限がある。
本稿では,ニューラル微分方程式(NSDE)の連続的利用に基づく不一致の緩和手法を提案する。
提案手法の有効性は,一般的なベンチマークデータセットであるnuScenes,Argoverse,Lyft,InterinterAction,Open Motionデータセット上で,最先端の軌道予測モデルに対して検証される。
論文 参考訳(メタデータ) (2023-12-26T06:50:29Z) - PPI++: Efficient Prediction-Powered Inference [31.403415618169433]
PPI++: 小さなラベル付きデータセットと、通常より大きな機械学習予測データセットに基づく推定と推測の方法論を提案する。
これらの手法は、利用可能な予測の品質に自動的に適応し、容易に計算可能な信頼セットを得る。
PPI++は予測駆動推論(PPI)に基づいており、同じ問題設定をターゲットとし、計算効率と統計効率を改善している。
論文 参考訳(メタデータ) (2023-11-02T17:59:04Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Loss-Curvature Matching for Dataset Selection and Condensation [13.354005476925176]
大規模なデータセット上でニューラルネットワークをトレーニングするには、かなりの計算コストが必要になる。
本稿では, LCMat という, 原データセットのロス曲率とモデルパラメータ空間上の縮小データセットをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2023-03-08T08:59:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Estimation of Local Average Treatment Effect by Data Combination [3.655021726150368]
治療課題の遵守が不完全である場合には、局所的平均治療効果(LATE)を推定することが重要である。
以前提案されたLATE推定法では、関連するすべての変数を1つのデータセットで共同で観測することが必要であった。
最小値の定式化を回避し,より簡易なモデル選択を可能とする重み付き最小二乗推定器を提案する。
論文 参考訳(メタデータ) (2021-09-11T03:51:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。