論文の概要: A Theory of Dynamic Benchmarks
- arxiv url: http://arxiv.org/abs/2210.03165v1
- Date: Thu, 6 Oct 2022 18:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:16:34.612312
- Title: A Theory of Dynamic Benchmarks
- Title(参考訳): 動的ベンチマークの理論
- Authors: Ali Shirali, Rediet Abebe, Moritz Hardt
- Abstract要約: 動的ベンチマークの利点と実用的限界について検討する。
これらの結果は、経験的作業における観察されたボトルネックに関する理論的基礎と因果的説明を提供する。
- 参考スコア(独自算出の注目度): 24.170405353348592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic benchmarks interweave model fitting and data collection in an attempt
to mitigate the limitations of static benchmarks. In contrast to an extensive
theoretical and empirical study of the static setting, the dynamic counterpart
lags behind due to limited empirical studies and no apparent theoretical
foundation to date. Responding to this deficit, we initiate a theoretical study
of dynamic benchmarking. We examine two realizations, one capturing current
practice and the other modeling more complex settings. In the first model,
where data collection and model fitting alternate sequentially, we prove that
model performance improves initially but can stall after only three rounds.
Label noise arising from, for instance, annotator disagreement leads to even
stronger negative results. Our second model generalizes the first to the case
where data collection and model fitting have a hierarchical dependency
structure. We show that this design guarantees strictly more progress than the
first, albeit at a significant increase in complexity. We support our
theoretical analysis by simulating dynamic benchmarks on two popular datasets.
These results illuminate the benefits and practical limitations of dynamic
benchmarking, providing both a theoretical foundation and a causal explanation
for observed bottlenecks in empirical work.
- Abstract(参考訳): 動的ベンチマークは静的ベンチマークの制限を軽減するために、モデルフィッティングとデータ収集を織り込む。
静的な設定に関する広範な理論的、実証的な研究とは対照的に、動的に対応する研究は、限られた経験的研究と、現在まで明らかな理論的基礎によって遅れている。
この欠陥に対応して、動的ベンチマークの理論的研究を開始する。
我々は,現在の実践を捉えた2つの実現と,より複雑な設定をモデル化するもう1つの実現について検討する。
第1のモデルでは、データ収集とモデルフィッティングが逐次的に行われるが、モデルの性能は向上するが、わずか3ラウンドで停止できる。
例えば、アノテータの不一致から生じるラベルノイズは、さらに強いネガティブな結果をもたらす。
第2のモデルは、データ収集とモデル適合が階層的な依存性構造を持つ場合に、第1のモデルを一般化する。
この設計は、複雑さが著しく増加するにもかかわらず、最初のものよりも厳格に進歩することを保証している。
2つの一般的なデータセット上で動的ベンチマークをシミュレートすることで理論的解析を支援する。
これらの結果は動的ベンチマークの利点と実用上の限界を照らし、経験的作業において観察されるボトルネックに対する理論的基礎と因果的説明の両方を提供する。
関連論文リスト
- Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Neural Persistence Dynamics [8.197801260302642]
時間発展する点雲のトポロジにおける力学を学習する問題を考察する。
提案したモデル - $textitNeural Persistence Dynamics$ - は、パラメータ回帰タスクの多種多様なセットで最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2024-05-24T17:20:18Z) - When predict can also explain: few-shot prediction to select better neural latents [3.6218162133579703]
基礎的真理をより正確に反映した潜伏変数を求めるために考案された新しい予測指標を提案する。
基底的真理が欠如している場合には、外部ダイナミクスを定量化するためのプロキシ測度を提案する。
論文 参考訳(メタデータ) (2024-05-23T10:48:30Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Towards Causal Foundation Model: on Duality between Causal Inference and Attention [18.046388712804042]
治療効果推定のための因果認識基盤モデルの構築に向けて第一歩を踏み出す。
我々はCInA(Causal Inference with Attention)と呼ばれる新しい理論的に正当化された手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T22:28:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Counterfactual Analysis in Dynamic Latent State Models [2.766648389933265]
隠れ状態を持つ動的モデルにおいて、逆ファクト解析を行うための最適化ベースのフレームワークを提供する。
我々は動的潜在状態モデルにおいて、対実的なクエリで下界と上界を計算した最初の人物である。
論文 参考訳(メタデータ) (2022-05-27T08:51:07Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。