Fugu-MT 論文翻訳(概要): Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation

論文の概要: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation

arxiv url: http://arxiv.org/abs/2305.06683v2
Date: Sat, 27 Jul 2024 07:22:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 01:16:44.596214
Title: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation
Title（参考訳）: Span-based Sequence Labelingのための費用効率の高いクラウドソーシング:作業者選択とデータ拡張
Authors: Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang Liu, Jingsi Yu, Erhong Yang,
Abstract要約: 本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
参考スコア（独自算出の注目度）: 30.179968217703635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a novel crowdsourcing worker selection algorithm, enhancing annotation quality and reducing costs. Unlike previous studies targeting simpler tasks, this study contends with the complexities of label interdependencies in sequence labeling. The proposed algorithm utilizes a Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection, and a cost-effective human feedback mechanism. The challenge of dealing with imbalanced and small-scale datasets, which hinders offline simulation of worker selection, is tackled using an innovative data augmentation method termed shifting, expanding, and shrinking (SES). Rigorous testing on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's efficiency, with an increase in F1 score up to 100.04% of the expert-only baseline, alongside cost savings up to 65.97%. The paper also encompasses a dataset-independent test emulating annotation evaluation through a Bernoulli distribution, which still led to an impressive 97.56% F1 score of the expert baseline and 59.88% cost savings. Furthermore, our approach can be seamlessly integrated into Reinforcement Learning from Human Feedback (RLHF) systems, offering a cost-effective solution for obtaining human feedback.
Abstract（参考訳）: 本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。従来の単純なタスクを対象とする研究とは異なり、この研究はシークエンスラベリングにおけるラベル相互依存性の複雑さと競合する。提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。 CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。さらに,本手法を人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)システムにシームレスに統合することで,人間のフィードバックを得るための費用対効果の高いソリューションを提供する。

関連論文リスト

Maximizing the efficiency of human feedback in AI alignment: a comparative analysis [1.561268797057701]
RLHF(Reinforcement Learning from Human Feedback)における選好推論のための代替サンプリングと評価戦略について検討する。我々の最高のパフォーマンス手法であるSwiss InfoGainは、プロキシ相互情報ゲインペアリングルールを備えたスイスのトーナメントシステムを採用しており、制約付きアノテーション予算において他の方法よりも大幅に優れています。本実験は,適応的資源認識戦略が冗長性を低減し,堅牢性を向上し,嗜好学習における統計的に有意な改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-11-16T21:55:59Z)
Semi-Supervised Preference Optimization with Limited Feedback [17.112054023380647]
本稿では,少数のペアワイズ選好ラベルと多数の未ペアサンプルから同時に学習することを目的とした,SSPO(Semi-Supervised Preference Optimization)の問題について検討する。我々の重要な理論的貢献は、高い確率で勝利と負けの反応を分離できる最適報酬閾値の存在を証明している。これらの擬似ラベルを利用することで、SSPOは大規模未ペアデータから潜伏した嗜好を効果的に蒸留し、取得コストを大幅に削減しつつ、人間のアライメントを維持する。
論文参考訳（メタデータ） (2025-10-28T01:33:43Z)
LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency [11.295036269748731]
本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
論文参考訳（メタデータ） (2024-12-30T15:10:57Z)
Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:58:39Z)
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2024-07-02T10:09:19Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Bandit-Driven Batch Selection for Robust Learning under Label Noise [20.202806541218944]
本稿では,SGD(Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
論文参考訳（メタデータ） (2023-10-31T19:19:01Z)
Optimal Sample Selection Through Uncertainty Estimation and Its Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文参考訳（メタデータ） (2023-09-05T14:06:33Z)
Mitigating Observation Biases in Crowdsourced Label Aggregation [19.460509608096217]
クラウドソーシングから高品質な結果を得るための技術的課題の1つは、それが人間であるという事実によって引き起こされる変動性とバイアスを扱うことである。本研究では,クラウドソーシングにおける観察バイアスに着目した。作業者のレスポンスの頻度とタスクの複雑さの変化は、集約結果に影響を与える可能性がある。
論文参考訳（メタデータ） (2023-02-25T15:19:13Z)
Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文参考訳（メタデータ） (2022-09-30T05:42:56Z)
Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文参考訳（メタデータ） (2022-07-26T17:54:49Z)
Data-Driven Evolutionary Multi-Objective Optimization Based on Multiple-Gradient Descent for Disconnected Pareto Fronts [6.560512252982714]
本稿では,データ駆動型進化的多目的最適化(EMO)アルゴリズムを提案する。そのインフィル基準は、高価な客観的関数評価を行うための、有望な候補ソリューションのバッチを推奨している。
論文参考訳（メタデータ） (2022-05-28T06:01:41Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。