論文の概要: HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models
- arxiv url: http://arxiv.org/abs/2602.00105v1
- Date: Sun, 25 Jan 2026 19:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.937232
- Title: HYPE-EDIT-1: Benchmark for Measuring Reliability in Frontier Image Editing Models
- Title(参考訳): HYPE-EDIT-1:フロンティア画像編集モデルの信頼性評価ベンチマーク
- Authors: Wing Chan, Richard Allen,
- Abstract要約: HYPE-EDIT-1は、参照ベースのマーケティング/デザイン編集とバイナリパス/フェイル判定の100タスクのベンチマークである。
我々は、10個の独立したアウトプットを生成して、回避パスレート、pass@10、リトライ上限下での期待された試み、そして、モデル価格と人間のレビュー時間を組み合わせた、編集成功毎の有効コストを見積もる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public demos of image editing models are typically best-case samples; real workflows pay for retries and review time. We introduce HYPE-EDIT-1, a 100-task benchmark of reference-based marketing/design edits with binary pass/fail judging. For each task we generate 10 independent outputs to estimate per-attempt pass rate, pass@10, expected attempts under a retry cap, and an effective cost per successful edit that combines model price with human review time. We release 50 public tasks and maintain a 50-task held-out private split for server-side evaluation, plus a standardized JSON schema and tooling for VLM and human-based judging. Across the evaluated models, per-attempt pass rates span 34-83 percent and effective cost per success spans USD 0.66-1.42. Models that have low per-image pricing are more expensive when you consider the total effective cost of retries and human reviews.
- Abstract(参考訳): イメージ編集モデルの公開デモは、通常、ベストケースのサンプルである。
参照ベースマーケティング/デザイン編集の100タスクベンチマークであるHYPE-EDIT-1をバイナリパス/フェール判定で導入する。
各タスクに対して、10個の独立したアウトプットを生成して、アタプティブ毎のパスレート、pass@10、リトライ上限下での期待された試み、モデル価格と人間のレビュー時間を組み合わせた編集成功毎の効果的なコストを見積もります。
我々は、50の公開タスクをリリースし、サーバサイド評価のための50タスクのプライベートスプリットと、VLMと人間ベースの判断のための標準化されたJSONスキーマとツールを維持します。
評価モデル全体では、試行あたりのパスレートは34-83パーセント、成功毎の有効コストは0.66-1.42である。
画像あたりの価格が低いモデルは、リトライと人的レビューの合計有効コストを考慮すると、よりコストがかかる。
関連論文リスト
- LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost [1.7133809948345597]
構造化評価を用いた受入テスト評価のための実運用対応フレームワークを提案する。
正確性、運用上の信頼性、コストにまたがる最初の包括的分析を提供する。
私たちは、データセット、フレームワーク、そしてデプロイをサポートするためのコードをリリースします。
論文 参考訳(メタデータ) (2025-12-01T03:19:33Z) - Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale [0.0]
我々は、Kaggleの投稿から生成される合成タスクを用いて、ベンチマークを構築する。
各タスクには、構造化された入力テストケースと推定価格が伴う。
本ベンチマークでは,現代LLM (3.5 Claude Haiku, GPT-4o-mini, Qwen 2.5, Mistral) の評価を行った。
論文 参考訳(メタデータ) (2025-05-16T22:42:04Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - UniMatch: A Unified User-Item Matching Framework for the Multi-purpose
Merchant Marketing [27.459774494479227]
1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うために,統合されたユーザイテムマッチングフレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して大幅に性能が向上し、計算資源や日々のメンテナンスにかかるコストが大幅に削減された。
論文 参考訳(メタデータ) (2023-07-19T13:49:35Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。