Fugu-MT 論文翻訳(概要): Angler: Helping Machine Translation Practitioners Prioritize Model Improvements

論文の概要: Angler: Helping Machine Translation Practitioners Prioritize Model Improvements

arxiv url: http://arxiv.org/abs/2304.05967v1
Date: Wed, 12 Apr 2023 16:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 14:14:47.889260
Title: Angler: Helping Machine Translation Practitioners Prioritize Model Improvements
Title（参考訳）: Angler: モデル改善を優先する機械翻訳実践者を支援する
Authors: Samantha Robertson, Zijie J. Wang, Dominik Moritz, Mary Beth Kery, Fred Hohman
Abstract要約: 機械学習の実践者は、エラーの性質、スコープ、およびユーザへの影響を推定するために、小さなターゲットテストセットを構築していることがわかった。私たちはこの洞察を、機械翻訳モデルを用いたケーススタディで構築し、インタラクティブなビジュアル分析ツールであるAnglerを開発した。 7つの機械翻訳の専門家によるユーザスタディでは、入力空間が無限の場合の優先順位付けのプラクティスを理解するために、Anglerを使用しました。
参考スコア（独自算出の注目度）: 21.873094411355254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) models can fail in unexpected ways in the real world, but not all model failures are equal. With finite time and resources, ML practitioners are forced to prioritize their model debugging and improvement efforts. Through interviews with 13 ML practitioners at Apple, we found that practitioners construct small targeted test sets to estimate an error's nature, scope, and impact on users. We built on this insight in a case study with machine translation models, and developed Angler, an interactive visual analytics tool to help practitioners prioritize model improvements. In a user study with 7 machine translation experts, we used Angler to understand prioritization practices when the input space is infinite, and obtaining reliable signals of model quality is expensive. Our study revealed that participants could form more interesting and user-focused hypotheses for prioritization by analyzing quantitative summary statistics and qualitatively assessing data by reading sentences.
Abstract（参考訳）: 機械学習(ML)モデルは、現実の世界で予期せぬ方法で失敗することがあるが、すべてのモデル失敗が等しいわけではない。有限時間とリソースで、ML実践者はモデルデバッグと改善の努力を優先せざるを得ない。 appleの13 ml実践者とのインタビューを通じて、実践者はエラーの性質、スコープ、ユーザへの影響を見積もるために、小さなターゲットテストセットを構築していることがわかった。この洞察を,機械翻訳モデルを用いたケーススタディで構築し,実践者がモデル改善を優先するのに役立つインタラクティブなビジュアル分析ツールである angler を開発した。 7人の機械翻訳専門家によるユーザスタディにおいて,入力空間が無限である場合の優先順位付けの実践を理解するために,Anglerを用いた。本研究は,定量的要約統計を解析し,文章の読解によって質的評価を行うことにより,より興味深く,ユーザ中心の仮説を定式化できることを示す。

関連論文リスト

Maximizing Signal in Human-Model Preference Alignment [0.0]
本稿では、エンドユーザーがMLモデルによる決定に同意する必要がある場合、モデルが好みを表すデータに基づいて訓練され、評価されるべきである、と論じる。評価手法のベストプラクティスに固執することで,ラベル付け不一致のノイズを最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-03-06T19:10:57Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。 AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Generalization Measures for Zero-Shot Cross-Lingual Transfer [40.35113593153817]
その知識を一般化するモデルの能力は、堅牢で信頼性の高い機械学習システムを構築するために不可欠である。言語モデル評価タスクには、モデル一般化に関する情報指標が欠けている。本稿では,一般化に相関するモデル最適化のシャープネスを確実かつ安定に計算するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-24T15:38:22Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-10-08T21:21:19Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2021-10-06T02:20:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。