論文の概要: DEEP: Docker-based Execution and Evaluation Platform
- arxiv url: http://arxiv.org/abs/2602.19583v1
- Date: Mon, 23 Feb 2026 08:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.721915
- Title: DEEP: Docker-based Execution and Evaluation Platform
- Title(参考訳): DEEP: Dockerベースの実行と評価プラットフォーム
- Authors: Sergio Gómez González, Miguel Domingo, Francisco Casacuberta,
- Abstract要約: 提案するソフトウェア(DEEP)は,機械翻訳と光学文字認識モデルの実行とスコアリングを自動化する。
DEEPは、ドッカー化されたシステムを受け取り、それらを実行(同時に情報を抽出)し、いくつかの参照に対して仮説を評価する準備ができています。
クラスタリングアルゴリズムを用いて、各モデルから得られる結果の意義を統計的に分析する。
- 参考スコア(独自算出の注目度): 0.8666275811953877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparative evaluation of several systems is a recurrent task in researching. It is a key step before deciding which system to use for our work, or, once our research has been conducted, to demonstrate the potential of the resulting model. Furthermore, it is the main task of competitive, public challenges evaluation. Our proposed software (DEEP) automates both the execution and scoring of machine translation and optical character recognition models. Furthermore, it is easily extensible to other tasks. DEEP is prepared to receive dockerized systems, run them (extracting information at that same time), and assess hypothesis against some references. With this approach, evaluators can achieve a better understanding of the performance of each model. Moreover, the software uses a clustering algorithm based on a statistical analysis of the significance of the results yielded by each model, according to the evaluation metrics. As a result, evaluators are able to identify clusters of performance among the swarm of proposals and have a better understanding of the significance of their differences. Additionally, we offer a visualization web-app to ensure that the results can be adequately understood and interpreted. Finally, we present an exemplary case of use of DEEP.
- Abstract(参考訳): いくつかのシステムの比較評価は、研究における繰り返しの課題である。
これは、作業に使用するシステムを決定する前に重要なステップであり、あるいは、研究が完了したら、結果のモデルの可能性を示すためのものです。
さらに、競争力、公的な課題評価の主課題である。
提案するソフトウェア(DEEP)は,機械翻訳と光学文字認識モデルの実行とスコアの双方を自動化する。
また、他のタスクにも容易に拡張可能である。
DEEPは、ドッカー化されたシステムを受け取り、それらを実行(同時に情報を抽出)し、いくつかの参照に対して仮説を評価する準備ができています。
このアプローチにより、評価者は各モデルの性能をよりよく理解することができる。
さらに,評価指標に従って,各モデルから得られる結果の意義を統計的に分析し,クラスタリングアルゴリズムを用いる。
その結果、評価者は、提案の群の中でパフォーマンスのクラスタを識別することができ、それらの違いの意義をよりよく理解することができる。
さらに、結果を適切に理解し、解釈できるように、可視化Webアプリケーションを提供しています。
最後に,DEEPの使用例を示す。
関連論文リスト
- SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - End-to-end Evaluation of Practical Video Analytics Systems for Face
Detection and Recognition [9.942007083253479]
ビデオ分析システムは、自動運転車のような帯域制限のある環境にデプロイされる。
エンドツーエンドの顔分析システムでは、HEVCのような一般的なビデオコーデックを使用して入力を最初に圧縮する。
独立したタスク評価,データセットの不均衡,一貫性のないアノテーションが,システムパフォーマンスの誤った推定にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2023-10-10T19:06:10Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods [27.27230441498167]
本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。
特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。
これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
論文 参考訳(メタデータ) (2020-02-17T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。