論文の概要: A methodology for comparing and benchmarking quantum devices
- arxiv url: http://arxiv.org/abs/2405.08617v1
- Date: Tue, 14 May 2024 13:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:59:04.663973
- Title: A methodology for comparing and benchmarking quantum devices
- Title(参考訳): 量子デバイスの比較とベンチマーク手法
- Authors: Jessica Park, Susan Stepney, Irene D'Amico,
- Abstract要約: まず最初に、成功の基準を定義する必要がある。問題に関連するメトリクスや統計は何か?
本稿では, ユーザ, 開発者, 研究者が, 問題の解決やクレーム作成に使用した成功基準と関連するベンチマークを定義し, 明確化し, 正当化することのできるフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantum Computing (QC) is undergoing a high rate of development, investment and research devoted to its improvement.However, there is little consensus in the industry and wider literature as to what improvement might consist of beyond ambiguous statements of "more qubits" and "fewer errors". Before one can decide how to improve something, it is first necessary to define the criteria for success: what are the metrics or statistics that are relevant to the problem? The lack of clarity surrounding this question has led to a rapidly developing capability with little consistency or standards present across the board. This paper lays out a framework by which any user, developer or researcher can define, articulate and justify the success criteria and associated benchmarks that have been used to solve their problem or make their claim.
- Abstract(参考訳): 量子コンピューティング(QC)は、その改善に向け、開発、投資、研究の速度が高くなっているが、「より量子ビット」と「より少ないエラー」という曖昧な言明を超越した改善がどんなものかについては、業界や幅広い文献にはほとんど意見の一致がない。
何かを改善する方法を決定する前に、まずは成功の基準を定義する必要があります。
この疑問を取り巻く明確さの欠如は、ボード全体に一貫性や標準がほとんど存在しない、急速に発展する能力に繋がった。
本稿では, ユーザ, 開発者, 研究者が, 問題の解決やクレーム作成に使用した成功基準と関連するベンチマークを定義し, 明確化し, 正当化することのできるフレームワークについて述べる。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - AI Agents That Matter [11.794931453828974]
AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
論文 参考訳(メタデータ) (2024-07-01T17:48:14Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。