論文の概要: Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora
- arxiv url: http://arxiv.org/abs/2408.12799v2
- Date: Fri, 31 Jan 2025 09:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:57.811954
- Title: Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora
- Title(参考訳): 嗜好整合性:学習コーパスの自己計算を自動化した言語モデルにおける選好学習の促進
- Authors: JoonHo Lee, JuYoun Son, Juree Seok, Wooseok Jang, Yeong-Dae Kwon,
- Abstract要約: 本稿では,アノテーション付きデータセットを直接トレーニングしたプロキシモデルを活用することで,前処理を行うセルフキュレーション手法を提案する。
本手法は、一貫性のあるアノテーションを自動的に検出し、選択することで、好みの学習を強化する。
- 参考スコア(独自算出の注目度): 4.008122785948581
- License:
- Abstract: Inconsistent annotations in training corpora, particularly within preference learning datasets, pose challenges in developing advanced language models. These inconsistencies often arise from variability among annotators and inherent multi-dimensional nature of the preferences. To address these issues, we introduce a self-curation method that preprocesses annotated datasets by leveraging proxy models trained directly on them. Our method enhances preference learning by automatically detecting and selecting consistent annotations. We validate the proposed approach through extensive instruction-following tasks, demonstrating performance improvements of up to 33\% across various learning algorithms and proxy capabilities. This work offers a straightforward and reliable solution to address preference inconsistencies without relying on heuristics, serving as an initial step toward the development of more advanced preference learning methodologies. Code is available at https://github.com/Self-Curation/ .
- Abstract(参考訳): コーパス、特に嗜好学習データセット内のトレーニングにおける一貫性のないアノテーションは、高度な言語モデルを開発する上での課題を提起する。
これらの矛盾は、アノテータ間のばらつきと、好みの本質的に多次元の性質から生じることが多い。
これらの問題に対処するために、アノテーション付きデータセットを直接トレーニングしたプロキシモデルを活用することで、前処理を行うセルフキュレーション手法を導入する。
本手法は、一貫性のあるアノテーションを自動的に検出し、選択することで、好みの学習を強化する。
提案手法を広範囲な命令追従タスクにより検証し,各種学習アルゴリズムとプロキシ機能に対して最大33倍の性能向上を示す。
この研究は、ヒューリスティックスに頼ることなく、嗜好の不整合に対処するための単純で信頼性の高いソリューションを提供し、より先進的な選好学習方法論の開発に向けた最初のステップとなる。
コードはhttps://github.com/Self-Curation/で入手できる。
関連論文リスト
- Aligning Large Language Models via Self-Steering Optimization [78.42826116686435]
本稿では,高品質な選好信号を自律的に生成するアルゴリズムであるSelf-Steering Optimization(SSO$)を紹介する。
SSO$は、選択された応答と拒否された応答の間に一貫したギャップを確保することで、信号の精度を維持する。
我々は、Qwen2とLlama3.1という2つの基礎モデルを用いて、$SSO$の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation [30.053409671898933]
Kunは、手動のアノテーションに頼ることなく、大きな言語モデル(LLM)のための高品質な命令チューニングデータセットを作成するための新しいアプローチである。
我々は、Wudao、Wanjuan、SkyPileなど、さまざまな情報源から収集された不正なデータを活用して、100万以上の中国語の命令データポイントの実質的なデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-12T09:56:57Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - SPEC: Summary Preference Decomposition for Low-Resource Abstractive
Summarization [21.037841262371355]
本稿では,ソースコーパスからターゲットコーパスへ数発の学習プロセスを転送するフレームワークを提案する。
提案手法は, ROUGE-1/2/Lを10例, 100例で平均改良した6種類のコーパスに対して, 30.11%/33.95%/27.51%, 26.74%/31.14%/24.48%の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T14:07:03Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - Model-agnostic and Scalable Counterfactual Explanations via
Reinforcement Learning [0.5729426778193398]
本稿では,最適化手順をエンドツーエンドの学習プロセスに変換する深層強化学習手法を提案する。
実世界のデータを用いた実験により,本手法はモデルに依存しず,モデル予測からのフィードバックのみに依存することがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:54:36Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。