Fugu-MT 論文翻訳(概要): An Optimism-based Approach to Online Evaluation of Generative Models

論文の概要: An Optimism-based Approach to Online Evaluation of Generative Models

arxiv url: http://arxiv.org/abs/2406.07451v1
Date: Tue, 11 Jun 2024 16:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 14:55:29.188838
Title: An Optimism-based Approach to Online Evaluation of Generative Models
Title（参考訳）: 最適化に基づく生成モデルのオンライン評価
Authors: Xiaoyan Hu, Ho-fung Leung, Farzan Farnia,
Abstract要約: 利用可能なモデル群間の標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価フレームワークを提案する。具体的には、Fr'echet Inception Distance(FID)とInception Score(IS)のメトリクスに基づいて、生成モデルのオンライン評価を行う。
参考スコア（独自算出の注目度）: 23.91197677628145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing frameworks for evaluating and comparing generative models typically target an offline setting, where the evaluator has access to full batches of data produced by the models. However, in many practical scenarios, the goal is to identify the best model using the fewest generated samples to minimize the costs of querying data from the models. Such an online comparison is challenging with current offline assessment methods. In this work, we propose an online evaluation framework to find the generative model that maximizes a standard assessment score among a group of available models. Our method uses an optimism-based multi-armed bandit framework to identify the model producing data with the highest evaluation score, quantifying the quality and diversity of generated data. Specifically, we study the online assessment of generative models based on the Fr\'echet Inception Distance (FID) and Inception Score (IS) metrics and propose the FID-UCB and IS-UCB algorithms leveraging the upper confidence bound approach in online learning. We prove sub-linear regret bounds for these algorithms and present numerical results on standard image datasets, demonstrating their effectiveness in identifying the score-maximizing generative model.
Abstract（参考訳）: 生成モデルの評価と比較のための既存のフレームワークは、一般的にオフライン設定をターゲットとしています。しかし、多くの現実的なシナリオでは、最も少ないサンプルを用いて最良のモデルを特定し、モデルからデータをクエリするコストを最小限に抑えることが目的である。このようなオンライン比較は、現在のオフラインアセスメント手法では難しい。本研究では、利用可能なモデル群間の標準評価スコアを最大化する生成モデルを見つけるためのオンライン評価フレームワークを提案する。提案手法は楽観主義に基づくマルチアーム・バンディット・フレームワークを用いて,生成したデータの品質と多様性を定量化し,最も高い評価スコアで生成するモデルを同定する。具体的には、Fr'echet Inception Distance (FID) と Inception Score (IS) のメトリクスに基づく生成モデルのオンライン評価を行い、オンライン学習における上位信頼度境界アプローチを利用したFID-UCBおよびIS-UCBアルゴリズムを提案する。本稿では,これらのアルゴリズムに対するサブ線形後悔境界を証明し,その結果を標準画像データセットに示し,スコア最大化生成モデルの同定の有効性を実証する。

関連論文リスト

Consensus-Driven Active Model Selection [29.150990754584978]
本稿では,候補モデルからの予測を用いたアクティブモデル選択手法を提案し,テストデータポイントのラベル付けを優先する。提案手法は,カテゴリとデータポイントの関係をモデル化し,コンセンサス駆動のアクティブモデル選択を行う。モデル選択シナリオをキャプチャする26のベンチマークタスクの集合をキュレートすることで、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-07-31T17:56:28Z)
Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
Evaluating Sample Utility for Data Selection by Mimicking Model Weights [12.056542160711718]
ファンデーションモデルは、しばしばノイズ、バイアス、無関係な情報を含む大規模なWebcrawledデータセットに基づいてトレーニングされている。我々は,新しいデータ品質指標であるMimic Scoreを用いて,効率的なモデルベースアプローチを提案する。学習のためのサンプルを優先し,効率的なフィルタを作成し,データ選択を自動化するフレームワークであるGrad-Mimicを開発した。
論文参考訳（メタデータ） (2025-01-12T04:28:14Z)
Be More Diverse than the Most Diverse: Optimal Mixtures of Generative Models via Mixture-UCB Bandit Algorithms [33.04472814852163]
ベンチマーク画像データセット上の生成モデルの混合は、実際により良い評価スコアを得ることができることを数値的に示す。そこで我々は,Mixture-UCBアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-23T14:48:17Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Offline Model-Based Optimization by Learning to Rank [26.21886715050762]
我々は、平均二乗誤差(MSE)で訓練された回帰モデルは、オフラインモデルに基づく最適化の第一目標とうまく一致していないと論じる。そこで本稿では,学習手法のランク付けに活用し,相対的なスコアに基づいて有望な設計を優先順位付けするランキングベースモデルを提案する。
論文参考訳（メタデータ） (2024-10-15T11:15:03Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文参考訳（メタデータ） (2024-08-20T07:40:20Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文参考訳（メタデータ） (2023-04-21T02:02:02Z)
Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文参考訳（メタデータ） (2023-02-19T14:08:01Z)
Multidimensional Item Response Theory in the Style of Collaborative Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文参考訳（メタデータ） (2023-01-03T00:56:27Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
fETSmcs: Feature-based ETS model component selection [8.99236558175168]
シミュレーションデータに基づく分類器の訓練によるETSモデル選択の効率的な手法を提案し, 与えられた時系列に対する適切なモデル成分の予測を行う。提案手法は,広く使用されている予測競合データセットM4に対して,点予測と予測間隔の両面から評価する。
論文参考訳（メタデータ） (2022-06-26T13:52:43Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。