Fugu-MT 論文翻訳(概要): A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models

論文の概要: A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models

arxiv url: http://arxiv.org/abs/2406.07451v3
Date: Tue, 11 Mar 2025 10:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 18:30:32.997813
Title: A Multi-Armed Bandit Approach to Online Selection and Evaluation of Generative Models
Title（参考訳）: オンライン選択と生成モデル評価のためのマルチアーマッドバンドアプローチ
Authors: Xiaoyan Hu, Ho-fung Leung, Farzan Farnia,
Abstract要約: 本研究では,標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価選択フレームワークを提案する。具体的には、Fr'echet Distance(FD)とInception Score(IS)のメトリクスを考慮した、MABに基づく生成モデルの選定を開発する。実験の結果, 深部生成モデルの標本効率評価と選択に対するMABアプローチの有効性が示唆された。
参考スコア（独自算出の注目度）: 23.91197677628145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing frameworks for evaluating and comparing generative models consider an offline setting, where the evaluator has access to large batches of data produced by the models. However, in practical scenarios, the goal is often to identify and select the best model using the fewest possible generated samples to minimize the costs of querying data from the sub-optimal models. In this work, we propose an online evaluation and selection framework to find the generative model that maximizes a standard assessment score among a group of available models. We view the task as a multi-armed bandit (MAB) and propose upper confidence bound (UCB) bandit algorithms to identify the model producing data with the best evaluation score that quantifies the quality and diversity of generated data. Specifically, we develop the MAB-based selection of generative models considering the Fr\'echet Distance (FD) and Inception Score (IS) metrics, resulting in the FD-UCB and IS-UCB algorithms. We prove regret bounds for these algorithms and present numerical results on standard image datasets. Our empirical results suggest the efficacy of MAB approaches for the sample-efficient evaluation and selection of deep generative models. The project code is available at https://github.com/yannxiaoyanhu/dgm-online-eval.
Abstract（参考訳）: 生成モデルの評価と比較を行う既存のフレームワークでは、モデルによって生成された大量のデータに評価者がアクセスできるようなオフライン設定が検討されている。しかし、現実的なシナリオでは、最も少ない生成サンプルを用いて最良のモデルを特定し、選択し、サブ最適モデルからデータをクエリするコストを最小限に抑えることが目的であることが多い。本研究では,利用可能なモデル群間の標準評価スコアを最大化する生成モデルを求めるための,オンライン評価と選択の枠組みを提案する。我々は、タスクをマルチアーム・バンディット(MAB)とみなし、生成したデータの品質と多様性を定量化する最良の評価スコアを用いて、生成するモデルを特定するために、上位信頼境界(UCB)バンディットアルゴリズムを提案する。具体的には、Fr'echet Distance (FD) と Inception Score (IS) のメトリクスを考慮した生成モデルのMABベース選択を行い、FD-UCB と IS-UCB のアルゴリズムを作成する。我々はこれらのアルゴリズムに対する後悔の限界を証明し、標準画像データセットに数値的な結果を示す。実験の結果, 深部生成モデルの標本効率評価と選択に対するMABアプローチの有効性が示唆された。プロジェクトのコードはhttps://github.com/yannxiaoyanhu/dgm-online-eval.comで公開されている。

関連論文リスト

Evaluating Sample Utility for Data Selection by Mimicking Model Weights [12.056542160711718]
ファンデーションモデルは、しばしばノイズ、バイアス、無関係な情報を含む大規模なWebcrawledデータセットに基づいてトレーニングされている。我々は,新しいデータ品質指標であるMimic Scoreを用いて,効率的なモデルベースアプローチを提案する。学習のためのサンプルを優先し,効率的なフィルタを作成し,データ選択を自動化するフレームワークであるGrad-Mimicを開発した。
論文参考訳（メタデータ） (2025-01-12T04:28:14Z)
Be More Diverse than the Most Diverse: Optimal Mixtures of Generative Models via Mixture-UCB Bandit Algorithms [33.04472814852163]
ベンチマーク画像データセット上の生成モデルの混合は、実際により良い評価スコアを得ることができることを数値的に示す。そこで我々は,Mixture-UCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-23T14:48:17Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Offline Model-Based Optimization by Learning to Rank [26.21886715050762]
我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
論文参考訳（メタデータ） (2024-10-15T11:15:03Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文参考訳（メタデータ） (2024-08-20T07:40:20Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文参考訳（メタデータ） (2023-04-21T02:02:02Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Multidimensional Item Response Theory in the Style of Collaborative Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文参考訳（メタデータ） (2023-01-03T00:56:27Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
fETSmcs: Feature-based ETS model component selection [8.99236558175168]
シミュレーションデータに基づく分類器の訓練によるETSモデル選択の効率的な手法を提案し, 与えられた時系列に対する適切なモデル成分の予測を行う。提案手法は,広く使用されている予測競合データセットM4に対して,点予測と予測間隔の両面から評価する。
論文参考訳（メタデータ） (2022-06-26T13:52:43Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。