論文の概要: Angler: Helping Machine Translation Practitioners Prioritize Model
Improvements
- arxiv url: http://arxiv.org/abs/2304.05967v1
- Date: Wed, 12 Apr 2023 16:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:14:47.889260
- Title: Angler: Helping Machine Translation Practitioners Prioritize Model
Improvements
- Title(参考訳): Angler: モデル改善を優先する機械翻訳実践者を支援する
- Authors: Samantha Robertson, Zijie J. Wang, Dominik Moritz, Mary Beth Kery,
Fred Hohman
- Abstract要約: 機械学習の実践者は、エラーの性質、スコープ、およびユーザへの影響を推定するために、小さなターゲットテストセットを構築していることがわかった。
私たちはこの洞察を、機械翻訳モデルを用いたケーススタディで構築し、インタラクティブなビジュアル分析ツールであるAnglerを開発した。
7つの機械翻訳の専門家によるユーザスタディでは、入力空間が無限の場合の優先順位付けのプラクティスを理解するために、Anglerを使用しました。
- 参考スコア(独自算出の注目度): 21.873094411355254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models can fail in unexpected ways in the real world,
but not all model failures are equal. With finite time and resources, ML
practitioners are forced to prioritize their model debugging and improvement
efforts. Through interviews with 13 ML practitioners at Apple, we found that
practitioners construct small targeted test sets to estimate an error's nature,
scope, and impact on users. We built on this insight in a case study with
machine translation models, and developed Angler, an interactive visual
analytics tool to help practitioners prioritize model improvements. In a user
study with 7 machine translation experts, we used Angler to understand
prioritization practices when the input space is infinite, and obtaining
reliable signals of model quality is expensive. Our study revealed that
participants could form more interesting and user-focused hypotheses for
prioritization by analyzing quantitative summary statistics and qualitatively
assessing data by reading sentences.
- Abstract(参考訳): 機械学習(ML)モデルは、現実の世界で予期せぬ方法で失敗することがあるが、すべてのモデル失敗が等しいわけではない。
有限時間とリソースで、ML実践者はモデルデバッグと改善の努力を優先せざるを得ない。
appleの13 ml実践者とのインタビューを通じて、実践者はエラーの性質、スコープ、ユーザへの影響を見積もるために、小さなターゲットテストセットを構築していることがわかった。
この洞察を,機械翻訳モデルを用いたケーススタディで構築し,実践者がモデル改善を優先するのに役立つインタラクティブなビジュアル分析ツールである angler を開発した。
7人の機械翻訳専門家によるユーザスタディにおいて,入力空間が無限である場合の優先順位付けの実践を理解するために,Anglerを用いた。
本研究は,定量的要約統計を解析し,文章の読解によって質的評価を行うことにより,より興味深く,ユーザ中心の仮説を定式化できることを示す。
関連論文リスト
- Generalization Measures for Zero-Shot Cross-Lingual Transfer [40.35113593153817]
その知識を一般化するモデルの能力は、堅牢で信頼性の高い機械学習システムを構築するために不可欠である。
言語モデル評価タスクには、モデル一般化に関する情報指標が欠けている。
本稿では,一般化に相関するモデル最適化のシャープネスを確実かつ安定に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T15:38:22Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generalizable Error Modeling for Search Relevance Data Annotation Tasks [0.0]
人間のデータアノテーションは、機械学習(ML)と人工知能(AI)システムの品質を形成する上で重要である。
この文脈における重要な課題の1つは、MLモデルの性能が低下する可能性があるため、アノテーションエラーによって引き起こされることである。
本稿では,3つの産業規模のMLアプリケーションを対象とした検索関連アノテーションタスクにおいて,潜在的なエラーを検出するよう訓練された予測誤差モデルを提案する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How to Learn from Others: Transfer Machine Learning with Additive
Regression Models to Improve Sales Forecasting [0.0]
加算回帰モデルに基づく移動機械学習手法を提案する。
レストランの複数の支店の多年多様なデータセットに対するアプローチを評価した。
その結果,分析知識を総合的に活用するアプローチの可能性が示された。
論文 参考訳(メタデータ) (2020-05-15T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。