論文の概要: Angler: Helping Machine Translation Practitioners Prioritize Model
Improvements
- arxiv url: http://arxiv.org/abs/2304.05967v1
- Date: Wed, 12 Apr 2023 16:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:14:47.889260
- Title: Angler: Helping Machine Translation Practitioners Prioritize Model
Improvements
- Title(参考訳): Angler: モデル改善を優先する機械翻訳実践者を支援する
- Authors: Samantha Robertson, Zijie J. Wang, Dominik Moritz, Mary Beth Kery,
Fred Hohman
- Abstract要約: 機械学習の実践者は、エラーの性質、スコープ、およびユーザへの影響を推定するために、小さなターゲットテストセットを構築していることがわかった。
私たちはこの洞察を、機械翻訳モデルを用いたケーススタディで構築し、インタラクティブなビジュアル分析ツールであるAnglerを開発した。
7つの機械翻訳の専門家によるユーザスタディでは、入力空間が無限の場合の優先順位付けのプラクティスを理解するために、Anglerを使用しました。
- 参考スコア(独自算出の注目度): 21.873094411355254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models can fail in unexpected ways in the real world,
but not all model failures are equal. With finite time and resources, ML
practitioners are forced to prioritize their model debugging and improvement
efforts. Through interviews with 13 ML practitioners at Apple, we found that
practitioners construct small targeted test sets to estimate an error's nature,
scope, and impact on users. We built on this insight in a case study with
machine translation models, and developed Angler, an interactive visual
analytics tool to help practitioners prioritize model improvements. In a user
study with 7 machine translation experts, we used Angler to understand
prioritization practices when the input space is infinite, and obtaining
reliable signals of model quality is expensive. Our study revealed that
participants could form more interesting and user-focused hypotheses for
prioritization by analyzing quantitative summary statistics and qualitatively
assessing data by reading sentences.
- Abstract(参考訳): 機械学習(ML)モデルは、現実の世界で予期せぬ方法で失敗することがあるが、すべてのモデル失敗が等しいわけではない。
有限時間とリソースで、ML実践者はモデルデバッグと改善の努力を優先せざるを得ない。
appleの13 ml実践者とのインタビューを通じて、実践者はエラーの性質、スコープ、ユーザへの影響を見積もるために、小さなターゲットテストセットを構築していることがわかった。
この洞察を,機械翻訳モデルを用いたケーススタディで構築し,実践者がモデル改善を優先するのに役立つインタラクティブなビジュアル分析ツールである angler を開発した。
7人の機械翻訳専門家によるユーザスタディにおいて,入力空間が無限である場合の優先順位付けの実践を理解するために,Anglerを用いた。
本研究は,定量的要約統計を解析し,文章の読解によって質的評価を行うことにより,より興味深く,ユーザ中心の仮説を定式化できることを示す。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Generalization Measures for Zero-Shot Cross-Lingual Transfer [40.35113593153817]
その知識を一般化するモデルの能力は、堅牢で信頼性の高い機械学習システムを構築するために不可欠である。
言語モデル評価タスクには、モデル一般化に関する情報指標が欠けている。
本稿では,一般化に相関するモデル最適化のシャープネスを確実かつ安定に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T15:38:22Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。