Fugu-MT 論文翻訳(概要): Operationalizing Specifications, In Addition to Test Sets for Evaluating Constrained Generative Models

論文の概要: Operationalizing Specifications, In Addition to Test Sets for Evaluating Constrained Generative Models

arxiv url: http://arxiv.org/abs/2212.00006v1
Date: Sat, 19 Nov 2022 06:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 14:25:21.208945
Title: Operationalizing Specifications, In Addition to Test Sets for Evaluating Constrained Generative Models
Title（参考訳）: 制約生成モデル評価用テストセットの追加による仕様の運用
Authors: Vikas Raunak, Matt Post and Arul Menezes
Abstract要約: 生成モデルのスケールは、評価自体が実行される抽象レベルを高めるために利用することができると論じる。我々の勧告は、生成品質を評価するための強力な手段として仕様を活用することに基づいている。
参考スコア（独自算出の注目度）: 17.914521288548844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we present some recommendations on the evaluation of state-of-the-art generative models for constrained generation tasks. The progress on generative models has been rapid in recent years. These large-scale models have had three impacts: firstly, the fluency of generation in both language and vision modalities has rendered common average-case evaluation metrics much less useful in diagnosing system errors. Secondly, the same substrate models now form the basis of a number of applications, driven both by the utility of their representations as well as phenomena such as in-context learning, which raise the abstraction level of interacting with such models. Thirdly, the user expectations around these models and their feted public releases have made the technical challenge of out of domain generalization much less excusable in practice. Subsequently, our evaluation methodologies haven't adapted to these changes. More concretely, while the associated utility and methods of interacting with generative models have expanded, a similar expansion has not been observed in their evaluation practices. In this paper, we argue that the scale of generative models could be exploited to raise the abstraction level at which evaluation itself is conducted and provide recommendations for the same. Our recommendations are based on leveraging specifications as a powerful instrument to evaluate generation quality and are readily applicable to a variety of tasks.
Abstract（参考訳）: 本稿では,制約付き生成タスクに対する最先端生成モデルの評価について提案する。生成モデルの進歩は近年急速に進んでいる。第一に、言語と視覚の両方における生成の流動性により、システムエラーの診断において、一般的な平均ケース評価メトリクスは、あまり役に立たない。第二に、同じ基板モデルが多くのアプリケーションの基礎を形成し、それらの表現の有用性と、そのようなモデルとの相互作用の抽象化レベルを高めるコンテキスト内学習のような現象の両方によって駆動される。第3に、これらのモデルとそのフェットされたパブリックリリースに関するユーザの期待は、ドメインの一般化の技術的課題を、実際にははるかに少なくした。その後、評価手法はこれらの変化に適応していない。より具体的には、生成モデルと相互作用するユーティリティや方法が拡張されているが、同様の拡張は評価の実践では見られていない。本稿では,生成モデルのスケールを利用して,評価自体が実行される抽象化レベルを高め,それに対するレコメンデーションを提供することができると論じる。我々の勧告は、仕様を生成品質を評価するための強力な手段として活用することに基づいており、様々なタスクに容易に適用できる。

関連論文リスト

Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。 GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文参考訳（メタデータ） (2025-01-30T04:20:16Z)
Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。 DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文参考訳（メタデータ） (2024-11-23T10:06:18Z)
Embedding-based statistical inference on generative models [10.948308354932639]
生成モデルの埋め込みに基づく表現に関する結果を、古典的な統計的推論設定に拡張する。類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。
論文参考訳（メタデータ） (2024-10-01T22:28:39Z)
Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-13T18:01:49Z)
PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文参考訳（メタデータ） (2024-08-20T07:40:20Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
GMValuator: Similarity-based Data Valuation for Generative Models [41.76259565672285]
生成モデル評価器(GMValuator, Generative Model Valuator, GMValuator, GMValuator)を導入した。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。
論文参考訳（メタデータ） (2023-04-21T02:02:02Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
Beyond Average Performance -- exploring regions of deviating performance for black box classification models [0.0]
ブラックボックス分類モデルの予測性能を解釈可能な記述に利用できる2つのアプローチについて述べる。これらのアプローチは、モデルが平均的な振る舞いから著しく逸脱するパフォーマンスを期待する、解釈可能な方法で発見し、記述する手段を提供するため、非常に実践的な関連性がある。
論文参考訳（メタデータ） (2021-09-16T20:46:52Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)
Evaluating the Disentanglement of Deep Generative Models through Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文参考訳（メタデータ） (2020-06-05T20:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。