論文の概要: The AI Consumer Index (ACE)
- arxiv url: http://arxiv.org/abs/2512.04921v3
- Date: Tue, 09 Dec 2025 18:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:22.91539
- Title: The AI Consumer Index (ACE)
- Title(参考訳): AI Consumer Index (ACE)
- Authors: Julien Benchek, Rohit Shetty, Benjamin Hunsberger, Ajay Arun, Zach Richards, Brendan Foody, Osvald Nitski, Bertie Vidgen,
- Abstract要約: AI Consumer Index(ACE)は、フロンティアAIモデルが日々の消費者タスクを実行できるかどうかを評価するためのベンチマークである。
ACEには400のテストケースが隠されたホールトアウトセットがあり、ショッピング、食品、ゲーム、DIYという4つの消費者活動に分かれている。
ACEのリーダーボードでは、新しいグレーティング手法を使って10のフロンティアモデル(Websearchがオンになっている)を評価しました。
- 参考スコア(独自算出の注目度): 4.895689961253406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first version of the AI Consumer Index (ACE), a benchmark for assessing whether frontier AI models can perform everyday consumer tasks. ACE contains a hidden heldout set of 400 test cases, split across four consumer activities: shopping, food, gaming, and DIY. We are also open sourcing 80 cases as a devset with a CC-BY license. For the ACE leaderboard we evaluated 10 frontier models (with websearch turned on) using a novel grading methodology that dynamically checks whether relevant parts of the response are grounded in the retrieved web sources. GPT 5 (Thinking = High) is the top-performing model, scoring 56.1%, followed by o3 Pro (Thinking = On) at 55.2% and GPT 5.1 (Thinking = High) at 55.1%. Model scores differ across domains, and in Shopping the top model scores under 50\%. We find that models are prone to hallucinating key information, such as prices. ACE shows a substantial gap between the performance of even the best models and consumers' AI needs.
- Abstract(参考訳): 私たちは、フロンティアAIモデルが日々の消費者タスクを実行できるかどうかを評価するベンチマークであるAI Consumer Index(ACE)の最初のバージョンを紹介します。
ACEには400のテストケースが隠されたホールトアウトセットがあり、ショッピング、食品、ゲーム、DIYという4つの消費者活動に分かれている。
また、CC-BYライセンスで80のケースをdevsetとしてオープンソース化しています。
ACEのリーダーボードでは、検索したWebソースに応答の関連部分があるかどうかを動的にチェックする新しいグレーティング手法を使用して、10のフロンティアモデル(Websearchがオンになっている)を評価しました。
GPT 5 (Thinking = High) は56.1%、O3 Pro (Thinking = On) は55.2%、GPT 5.1 (Thinking = High) は55.1%である。
モデルスコアはドメインによって異なり、ショッピングではトップモデルのスコアは50%以下である。
モデルは価格などの重要な情報を幻覚させる傾向にある。
ACEは、最高のモデルのパフォーマンスとコンシューマのAIニーズの間に大きなギャップを示しています。
関連論文リスト
- The AI Productivity Index (APEX) [4.122962658725304]
我々は、フロンティアAIモデルが高い経済価値で知識労働を行うことができるかどうかを評価するベンチマークであるAI生産性指数(APEX)の最初のバージョンを紹介する。
APEX-v1.0は200のテストケースを含み、投資銀行、マネジメントコンサルティング、法律、プライマリ医療の4つの領域をカバーする。
GPT 5 (Thinking = High) は最高スコア (64.2%) を獲得し、Grok 4 (61.3%) と Gemini 2.5 Flash (Thinking = On) (60.4%) が続く。
論文 参考訳(メタデータ) (2025-09-30T03:26:17Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce [1.998857368899133]
プラットフォームに依存しないエージェントと完全にプログラム可能なモックマーケットプレースを組み合わせたサンドボックス環境を開発した。
まず、集合的な選択を探索し、モデル間でモーダルな選択が異なることを明らかにする。
次に、合理性チェックと、製品の位置と属性の列挙に関するランダム化実験により、選択のドライバを分析します。
論文 参考訳(メタデータ) (2025-08-04T17:19:36Z) - FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [231.11339402237903]
反応前に思考を通して推論できるSeed1.5-Thinkingを紹介した。
Seed1.5-ThinkingはAIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成した。
これは、STEMとコーディングにおいて優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-04-10T17:10:51Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。