Fugu-MT 論文翻訳(概要): DEEP: Docker-based Execution and Evaluation Platform

論文の概要: DEEP: Docker-based Execution and Evaluation Platform

arxiv url: http://arxiv.org/abs/2602.19583v1
Date: Mon, 23 Feb 2026 08:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.721915
Title: DEEP: Docker-based Execution and Evaluation Platform
Title（参考訳）: DEEP: Dockerベースの実行と評価プラットフォーム
Authors: Sergio Gómez González, Miguel Domingo, Francisco Casacuberta,
Abstract要約: 提案するソフトウェア(DEEP)は,機械翻訳と光学文字認識モデルの実行とスコアリングを自動化する。 DEEPは、ドッカー化されたシステムを受け取り、それらを実行(同時に情報を抽出)し、いくつかの参照に対して仮説を評価する準備ができています。クラスタリングアルゴリズムを用いて、各モデルから得られる結果の意義を統計的に分析する。
参考スコア（独自算出の注目度）: 0.8666275811953877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Comparative evaluation of several systems is a recurrent task in researching. It is a key step before deciding which system to use for our work, or, once our research has been conducted, to demonstrate the potential of the resulting model. Furthermore, it is the main task of competitive, public challenges evaluation. Our proposed software (DEEP) automates both the execution and scoring of machine translation and optical character recognition models. Furthermore, it is easily extensible to other tasks. DEEP is prepared to receive dockerized systems, run them (extracting information at that same time), and assess hypothesis against some references. With this approach, evaluators can achieve a better understanding of the performance of each model. Moreover, the software uses a clustering algorithm based on a statistical analysis of the significance of the results yielded by each model, according to the evaluation metrics. As a result, evaluators are able to identify clusters of performance among the swarm of proposals and have a better understanding of the significance of their differences. Additionally, we offer a visualization web-app to ensure that the results can be adequately understood and interpreted. Finally, we present an exemplary case of use of DEEP.
Abstract（参考訳）: いくつかのシステムの比較評価は、研究における繰り返しの課題である。これは、作業に使用するシステムを決定する前に重要なステップであり、あるいは、研究が完了したら、結果のモデルの可能性を示すためのものです。さらに、競争力、公的な課題評価の主課題である。提案するソフトウェア(DEEP)は,機械翻訳と光学文字認識モデルの実行とスコアの双方を自動化する。また、他のタスクにも容易に拡張可能である。 DEEPは、ドッカー化されたシステムを受け取り、それらを実行(同時に情報を抽出)し、いくつかの参照に対して仮説を評価する準備ができています。このアプローチにより、評価者は各モデルの性能をよりよく理解することができる。さらに,評価指標に従って,各モデルから得られる結果の意義を統計的に分析し,クラスタリングアルゴリズムを用いる。その結果、評価者は、提案の群の中でパフォーマンスのクラスタを識別することができ、それらの違いの意義をよりよく理解することができる。さらに、結果を適切に理解し、解釈できるように、可視化Webアプリケーションを提供しています。最後に,DEEPの使用例を示す。

関連論文リスト

SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。 SCANには4つの重要なコンポーネントが含まれている。 TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。 RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。 PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文参考訳（メタデータ） (2024-02-03T14:28:55Z)
End-to-end Evaluation of Practical Video Analytics Systems for Face Detection and Recognition [9.942007083253479]
ビデオ分析システムは、自動運転車のような帯域制限のある環境にデプロイされる。エンドツーエンドの顔分析システムでは、HEVCのような一般的なビデオコーデックを使用して入力を最初に圧縮する。独立したタスク評価,データセットの不均衡,一貫性のないアノテーションが,システムパフォーマンスの誤った推定にどのように寄与するかを実証する。
論文参考訳（メタデータ） (2023-10-10T19:06:10Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文参考訳（メタデータ） (2022-10-11T20:19:11Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)
What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文参考訳（メタデータ） (2022-02-08T11:44:20Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link Prediction Methods [27.27230441498167]
本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
論文参考訳（メタデータ） (2020-02-17T12:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。