論文の概要: What's Producible May Not Be Reachable: Measuring the Steerability of Generative Models
- arxiv url: http://arxiv.org/abs/2503.17482v1
- Date: Fri, 21 Mar 2025 18:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:48.138238
- Title: What's Producible May Not Be Reachable: Measuring the Steerability of Generative Models
- Title(参考訳): 再現可能なものは到達不可能か - 生成モデルの安定性を計測する
- Authors: Keyon Vafa, Sarah Bentley, Jon Kleinberg, Sendhil Mullainathan,
- Abstract要約: ステアビリティとは、生成モデルがユーザの目標を満たす出力を生成する能力である。
本稿では,再現性から独立してステアビリティを評価する数学的枠組みを提案する。
本稿では,強化学習手法を用いて,このベンチマークで2倍以上の改善を達成できる画像モデルの代替ステアリング機構を構築する。
- 参考スコア(独自算出の注目度): 2.7941822406428702
- License:
- Abstract: How should we evaluate the quality of generative models? Many existing metrics focus on a model's producibility, i.e. the quality and breadth of outputs it can generate. However, the actual value from using a generative model stems not just from what it can produce but whether a user with a specific goal can produce an output that satisfies that goal. We refer to this property as steerability. In this paper, we first introduce a mathematical framework for evaluating steerability independently from producibility. Steerability is more challenging to evaluate than producibility because it requires knowing a user's goals. We address this issue by creating a benchmark task that relies on one key idea: sample an output from a generative model and ask users to reproduce it. We implement this benchmark in a large-scale user study of text-to-image models and large language models. Despite the ability of these models to produce high-quality outputs, they all perform poorly on steerabilty. This suggests that we need to focus on improving the steerability of generative models. We show such improvements are indeed possible: through reinforcement learning techniques, we create an alternative steering mechanism for image models that achieves more than 2x improvement on this benchmark.
- Abstract(参考訳): 生成モデルの品質をどう評価するか?
既存のメトリクスの多くは、モデルが生成できるアウトプットの品質と広さに重点を置いている。
しかし、生成モデルを使用することによる実際の価値は、生成できるものだけでなく、特定の目標を持つユーザがその目標を満たす出力を生成できるかどうかにも起因している。
私たちはこの特性をステアビリティと呼んでいる。
本稿では、まず、再現性から独立してステアビリティを評価する数学的枠組みを提案する。
ユーザの目標を知る必要があるため、再現性よりもステアビリティを評価することが難しいのです。
我々は、生成モデルから出力をサンプリングし、それを再現するようユーザに求めるという、一つの重要なアイデアに依存したベンチマークタスクを作成することで、この問題に対処する。
我々はこのベンチマークを,テキスト・ツー・イメージモデルと大規模言語モデルの大規模ユーザスタディで実装する。
これらのモデルが高品質なアウトプットを生成する能力にもかかわらず、それらはみな、ステラビリティにおいて不十分なパフォーマンスを保っている。
これは、生成モデルのステアビリティ向上に注力する必要があることを示唆している。
強化学習技術により、このベンチマークで2倍以上の改善を達成できる画像モデルのための代替のステアリング機構を作成する。
関連論文リスト
- Evaluating the Prompt Steerability of Large Language Models [16.341817101388454]
本稿では,モデルペルソナの操作性を評価するためのベンチマークを提案する。
我々の設計は,モデルの連接行動分布をベースラインからシフトできる程度を解析する,プロンプトステアビリティの形式的定義に基づいている。
我々のベンチマークでは、多くの現在のモデルのステアビリティは、ベースラインの振る舞いの歪みと多くのペルソナ次元におけるステアビリティの非対称性の両方のため、制限されていることが明らかになっている。
論文 参考訳(メタデータ) (2024-11-19T10:41:54Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - GenAI Arena: An Open Evaluation Platform for Generative Models [33.246432399321826]
本稿では,異なる画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、より民主的で正確なモデルパフォーマンスの指標を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのタスクをカバーしている。
論文 参考訳(メタデータ) (2024-06-06T20:15:42Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - A Generic and Model-Agnostic Exemplar Synthetization Framework for
Explainable AI [29.243901669124515]
我々は、説明可能なAIに焦点をあて、入力例を合成するための新しい汎用的でモデルに依存しないフレームワークを提案する。
我々は、データ生成の先行として機能する生成モデルを使用し、新しい進化戦略を用いて、その潜在空間をトラバースする。
私たちのフレームワークはモデルに依存しませんが、私たちが説明しようとしている機械学習モデルはブラックボックスです。
論文 参考訳(メタデータ) (2020-06-06T15:46:48Z) - Residual Energy-Based Models for Text [46.22375671394882]
自動回帰言語モデルの世代は、統計的判別器によって実際のテキストと確実に区別できることを示す。
これは、自己回帰モデルが生成過程に(グローバルに正規化された)判別器を組み込むことで改善できることを示唆している。
論文 参考訳(メタデータ) (2020-04-06T13:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。