Fugu-MT 論文翻訳(概要): A Theory of Dynamic Benchmarks

論文の概要: A Theory of Dynamic Benchmarks

arxiv url: http://arxiv.org/abs/2210.03165v1
Date: Thu, 6 Oct 2022 18:56:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 13:16:34.612312
Title: A Theory of Dynamic Benchmarks
Title（参考訳）: 動的ベンチマークの理論
Authors: Ali Shirali, Rediet Abebe, Moritz Hardt
Abstract要約: 動的ベンチマークの利点と実用的限界について検討する。これらの結果は、経験的作業における観察されたボトルネックに関する理論的基礎と因果的説明を提供する。
参考スコア（独自算出の注目度）: 24.170405353348592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dynamic benchmarks interweave model fitting and data collection in an attempt to mitigate the limitations of static benchmarks. In contrast to an extensive theoretical and empirical study of the static setting, the dynamic counterpart lags behind due to limited empirical studies and no apparent theoretical foundation to date. Responding to this deficit, we initiate a theoretical study of dynamic benchmarking. We examine two realizations, one capturing current practice and the other modeling more complex settings. In the first model, where data collection and model fitting alternate sequentially, we prove that model performance improves initially but can stall after only three rounds. Label noise arising from, for instance, annotator disagreement leads to even stronger negative results. Our second model generalizes the first to the case where data collection and model fitting have a hierarchical dependency structure. We show that this design guarantees strictly more progress than the first, albeit at a significant increase in complexity. We support our theoretical analysis by simulating dynamic benchmarks on two popular datasets. These results illuminate the benefits and practical limitations of dynamic benchmarking, providing both a theoretical foundation and a causal explanation for observed bottlenecks in empirical work.
Abstract（参考訳）: 動的ベンチマークは静的ベンチマークの制限を軽減するために、モデルフィッティングとデータ収集を織り込む。静的な設定に関する広範な理論的、実証的な研究とは対照的に、動的に対応する研究は、限られた経験的研究と、現在まで明らかな理論的基礎によって遅れている。この欠陥に対応して、動的ベンチマークの理論的研究を開始する。我々は,現在の実践を捉えた2つの実現と,より複雑な設定をモデル化するもう1つの実現について検討する。第1のモデルでは、データ収集とモデルフィッティングが逐次的に行われるが、モデルの性能は向上するが、わずか3ラウンドで停止できる。例えば、アノテータの不一致から生じるラベルノイズは、さらに強いネガティブな結果をもたらす。第2のモデルは、データ収集とモデル適合が階層的な依存性構造を持つ場合に、第1のモデルを一般化する。この設計は、複雑さが著しく増加するにもかかわらず、最初のものよりも厳格に進歩することを保証している。 2つの一般的なデータセット上で動的ベンチマークをシミュレートすることで理論的解析を支援する。これらの結果は動的ベンチマークの利点と実用上の限界を照らし、経験的作業において観察されるボトルネックに対する理論的基礎と因果的説明の両方を提供する。

関連論文リスト

A Theoretical Analysis of Mamba's Training Dynamics: Filtering Relevant Features for Generalization in State Space Models [36.99162631444728]
単純だが代表的なマンバブロックに対する一般化と学習ダイナミクスの第一段階解析について述べる。本研究は,トークンレベルのノイズの下で,クラス関連パターンとクラス関連パターンの両方を含むトークンを持つ構造化データモデルを採用する。非漸近的なサンプル複雑性と収束率境界を確立することにより、モデルが保証された一般化を実現することを証明した。
論文参考訳（メタデータ） (2026-02-13T00:44:26Z)
Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。本稿では,SRLMの厳密な理論的保証について述べる。
論文参考訳（メタデータ） (2026-01-30T03:45:43Z)
Characteristic Root Analysis and Regularization for Linear Time Series Forecasting [9.254995889539716]
時系列予測は多くの領域において重要な課題である。近年の研究では、単純な線形モデルの驚くほどの競争性が強調されている。本稿では時間力学における特性根の役割に焦点を当てる。
論文参考訳（メタデータ） (2025-09-28T03:06:30Z)
CausalDynamics: A large-scale benchmark for structural discovery of dynamical causal models [0.6640009280244263]
CausalDynamicsは動的因果モデルの構造的発見を促進するためのフレームワークである。我々のベンチマークは、数千の常微分方程式から導かれる真の因果グラフで構成されている。本研究では, ノイズ, 畳み込み, タグ付けされた動的システムにおいて, グラフ再構成のための最先端因果探索アルゴリズムを包括的に評価する。
論文参考訳（メタデータ） (2025-05-22T12:54:30Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Is Your Benchmark (Still) Useful? Dynamic Benchmarking for Code Language Models [19.06241383209599]
この課題に対処するために、新しいソリューションである動的ベンチマークフレームワークを導入します。コード理解や推論のベンチマークが与えられた場合、我々のフレームワークは動的に各入力、すなわちプログラムを様々な意味保存突然変異で変換し、構文的に新しく、意味的に同一のベンチマークを構築する。
論文参考訳（メタデータ） (2025-03-09T14:41:18Z)
Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文参考訳（メタデータ） (2025-03-03T07:45:04Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文参考訳（メタデータ） (2024-10-23T07:44:14Z)
Neural Persistence Dynamics [8.197801260302642]
時間発展する点雲のトポロジにおける力学を学習する問題を考察する。提案したモデル - $textitNeural Persistence Dynamics$ - は、パラメータ回帰タスクの多種多様なセットで最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2024-05-24T17:20:18Z)
When predict can also explain: few-shot prediction to select better neural latents [3.6218162133579703]
基礎的真理をより正確に反映した潜伏変数を求めるために考案された新しい予測指標を提案する。基底的真理が欠如している場合には、外部ダイナミクスを定量化するためのプロキシ測度を提案する。
論文参考訳（メタデータ） (2024-05-23T10:48:30Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文参考訳（メタデータ） (2024-04-04T10:54:38Z)
Physics-Informed Diffusion Models [0.0]
生成モデルと偏微分方程式の充足を統一する枠組みを提案する。本手法は,流体流動ケーススタディにおける従来の研究と比較して,残差を最大2桁まで低減する。
論文参考訳（メタデータ） (2024-03-21T13:52:55Z)
The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文参考訳（メタデータ） (2024-02-19T20:38:00Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Towards Causal Foundation Model: on Duality between Causal Inference and Attention [18.046388712804042]
治療効果推定のための因果認識基盤モデルの構築に向けて第一歩を踏み出す。我々はCInA(Causal Inference with Attention)と呼ばれる新しい理論的に正当化された手法を提案する。
論文参考訳（メタデータ） (2023-10-01T22:28:34Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。 CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文参考訳（メタデータ） (2022-06-27T17:02:53Z)
Counterfactual Analysis in Dynamic Latent State Models [2.766648389933265]
隠れ状態を持つ動的モデルにおいて、逆ファクト解析を行うための最適化ベースのフレームワークを提供する。我々は動的潜在状態モデルにおいて、対実的なクエリで下界と上界を計算した最初の人物である。
論文参考訳（メタデータ） (2022-05-27T08:51:07Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。