論文の概要: Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models
- arxiv url: http://arxiv.org/abs/2212.00006v1
- Date: Sat, 19 Nov 2022 06:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:25:21.208945
- Title: Operationalizing Specifications, In Addition to Test Sets for Evaluating
Constrained Generative Models
- Title(参考訳): 制約生成モデル評価用テストセットの追加による仕様の運用
- Authors: Vikas Raunak, Matt Post and Arul Menezes
- Abstract要約: 生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。
我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
- 参考スコア(独自算出の注目度): 17.914521288548844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present some recommendations on the evaluation of
state-of-the-art generative models for constrained generation tasks. The
progress on generative models has been rapid in recent years. These large-scale
models have had three impacts: firstly, the fluency of generation in both
language and vision modalities has rendered common average-case evaluation
metrics much less useful in diagnosing system errors. Secondly, the same
substrate models now form the basis of a number of applications, driven both by
the utility of their representations as well as phenomena such as in-context
learning, which raise the abstraction level of interacting with such models.
Thirdly, the user expectations around these models and their feted public
releases have made the technical challenge of out of domain generalization much
less excusable in practice. Subsequently, our evaluation methodologies haven't
adapted to these changes. More concretely, while the associated utility and
methods of interacting with generative models have expanded, a similar
expansion has not been observed in their evaluation practices. In this paper,
we argue that the scale of generative models could be exploited to raise the
abstraction level at which evaluation itself is conducted and provide
recommendations for the same. Our recommendations are based on leveraging
specifications as a powerful instrument to evaluate generation quality and are
readily applicable to a variety of tasks.
- Abstract(参考訳): 本稿では,制約付き生成タスクに対する最先端生成モデルの評価について提案する。
生成モデルの進歩は近年急速に進んでいる。
第一に、言語と視覚の両方における生成の流動性により、システムエラーの診断において、一般的な平均ケース評価メトリクスは、あまり役に立たない。
第二に、同じ基板モデルが多くのアプリケーションの基礎を形成し、それらの表現の有用性と、そのようなモデルとの相互作用の抽象化レベルを高めるコンテキスト内学習のような現象の両方によって駆動される。
第3に、これらのモデルとそのフェットされたパブリックリリースに関するユーザの期待は、ドメインの一般化の技術的課題を、実際にははるかに少なくした。
その後、評価手法はこれらの変化に適応していない。
より具体的には、生成モデルと相互作用するユーティリティや方法が拡張されているが、同様の拡張は評価の実践では見られていない。
本稿では,生成モデルのスケールを利用して,評価自体が実行される抽象化レベルを高め,それに対するレコメンデーションを提供することができると論じる。
我々の勧告は、仕様を生成品質を評価するための強力な手段として活用することに基づいており、様々なタスクに容易に適用できる。
関連論文リスト
- Embedding-based statistical inference on generative models [10.948308354932639]
生成モデルの埋め込みに基づく表現に関する結果を、古典的な統計的推論設定に拡張する。
類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T22:28:39Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。
当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。
GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文 参考訳(メタデータ) (2023-04-21T02:02:02Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Beyond Average Performance -- exploring regions of deviating performance
for black box classification models [0.0]
ブラックボックス分類モデルの予測性能を解釈可能な記述に利用できる2つのアプローチについて述べる。
これらのアプローチは、モデルが平均的な振る舞いから著しく逸脱するパフォーマンスを期待する、解釈可能な方法で発見し、記述する手段を提供するため、非常に実践的な関連性がある。
論文 参考訳(メタデータ) (2021-09-16T20:46:52Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。