Fugu-MT 論文翻訳(概要): Joint Training for Selective Prediction

論文の概要: Joint Training for Selective Prediction

arxiv url: http://arxiv.org/abs/2410.24029v1
Date: Thu, 31 Oct 2024 15:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.884123
Title: Joint Training for Selective Prediction
Title（参考訳）: 選択予測のためのジョイントトレーニング
Authors: Zhaohui Li, Rebecca J. Passonneau,
Abstract要約: 選択予測法は、分類器の出力をいつ採用するか、人間に延期するかを決定する。以前の方法の1つは、エンジニアリングされた特徴に基づいて遅延モデルを学習することである。分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。
参考スコア（独自算出の注目度）: 5.662924503089369
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classifier models are prevalent in natural language processing (NLP), often with high accuracy. Yet in real world settings, human-in-the-loop systems can foster trust in model outputs and even higher performance. Selective Prediction (SP) methods determine when to adopt a classifier's output versus defer to a human. Previous SP approaches have addressed how to improve softmax as a measure of model confidence, or have developed separate confidence estimators. One previous method involves learning a deferral model based on engineered features. We introduce a novel joint-training approach that simultaneously optimizes learned representations used by the classifier module and a learned deferral policy. Our results on four classification tasks demonstrate that joint training not only leads to better SP outcomes over two strong baselines, but also improves the performance of both modules.
Abstract（参考訳）: 分類器モデルは自然言語処理(NLP)でよく使われ、精度が高いことが多い。しかし、現実の環境では、人間のループシステムはモデルの出力に対する信頼を育み、パフォーマンスをさらに向上させることができる。 Selective Prediction (SP)メソッドは、分類器の出力をいつ採用するか、人間に延期するかを決定する。従来のSPアプローチでは、モデル信頼性の尺度としてソフトマックスを改善する方法や、別の信頼度推定器を開発した。以前の手法では、エンジニアリングされた特徴に基づいて遅延モデルを学習する必要があった。分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。 4つの分類課題における結果から, 共同学習は2つの強いベースラインに対して, より優れたSP結果をもたらすだけでなく, 両モジュールの性能も向上することが示された。

関連論文リスト

Post-Completion Learning for Language Models [20.589364712188015]
現在の言語モデルトレーニングパラダイムは、エンド・オブ・シーケンス(eos>)トークンに到達して学習を終了する。モデル出力完了後のシーケンス空間を体系的に活用する新しい学習フレームワークであるポストコンプリート学習(PCL)を提案する。 PCLは、学習中の自己評価と報奨予測を継続し、完了点に停止することで効率的な推論を維持する。
論文参考訳（メタデータ） (2025-07-27T12:47:26Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文参考訳（メタデータ） (2024-06-11T14:24:00Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Guiding The Last Layer in Federated Learning with Pre-Trained Models [18.382057374270143]
フェデレートラーニング(FL)は、データを共有することなく、多数の参加者にまたがってモデルをトレーニングできる新興パラダイムである。 NCM(Nearest Class Means)を用いた分類ヘッドの適合は,既存の提案よりも正確に,桁違いに効率的に行えることを示す。
論文参考訳（メタデータ） (2023-06-06T18:02:02Z)
Decoupled Training for Long-Tailed Classification With Stochastic Representations [15.990318581975435]
表現学習と学習の分離は,長期データを用いた分類に有効であることが示されている。まず、ディープニューラルネットワークの一般化を改善するための最適化手法であるウェイト平均化(SWA)を適用し、長い尾の分類のためのより優れた一般化特徴抽出器を得る。そこで我々は,SWA-Gaussian,Gaussian SWA,および自己蒸留戦略から得られた摂動表現に基づく新しい分類器再学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-19T05:35:09Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文参考訳（メタデータ） (2022-03-14T20:13:21Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)
BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文参考訳（メタデータ） (2020-06-07T13:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。