論文の概要: REALM: Reliable Expertise-Aware Language Model Fine-Tuning from Noisy Annotations
- arxiv url: http://arxiv.org/abs/2604.17289v1
- Date: Sun, 19 Apr 2026 07:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.440349
- Title: REALM: Reliable Expertise-Aware Language Model Fine-Tuning from Noisy Annotations
- Title(参考訳): REALM: ノイズアノテーションによる信頼性の高いエキスパート対応言語モデルの微調整
- Authors: Sajjad Ghiasvand, Mark Beliaev, Mahnoosh Alizadeh, Ramtin Pedarsani,
- Abstract要約: 本稿では,各アノテータに対して,モデルパラメータとスカラーの専門知識値を相互に学習するREALMを提案する。
我々は,Flan-T5の3つのサイズをシミュレートされたノイズアノテーションの下で微調整した5つの質問応答ベンチマークを評価した。
提案アルゴリズムは、単一タスクとマルチタスク設定の大部分において、ノイズの多いSFTを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.49289449502791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning of large language models relies on human-annotated data, yet annotation pipelines routinely involve multiple crowdworkers of heterogeneous expertise. Standard practice aggregates labels via majority vote or simple averaging, discarding annotator identity and causing the model to absorb the errors of unreliable annotators directly into its parameters. We propose REALM, a method that jointly learns the model parameters and a scalar expertise value for each annotator entirely unsupervised, requiring no supervision beyond annotator identity. The key idea is to model each observed label as a mixture between the model's prediction and a uniform random guess, weighted by the annotator's learned expertise. We extend REALM to a multi-task setting via a learned expertise matrix that captures per-annotator reliability across tasks. We evaluate on five question answering benchmarks, fine-tuning three sizes of Flan-T5 under simulated noisy annotations. The proposed algorithm consistently outperforms the naive noisy SFT in the large majority of single- and multi-task settings, across datasets, model sizes, and noise types, with accuracy improvements of up to $50\%$ in the most adversarial regime and gains that grow with model capacity.
- Abstract(参考訳): 大きな言語モデルの監督された微調整は、人間の注釈付きデータに依存するが、アノテーションパイプラインは、不均一な専門知識を持つ複数のクラウドワーカーを常用する。
標準プラクティスは、多数決や単純な平均化を通じてラベルを集約し、アノテーションのアイデンティティを破棄し、信頼できないアノテーションのエラーをパラメータに直接吸収する。
本稿では,各アノテータに対して,モデルパラメータとスカラーの専門知識値を共同で学習するREALMを提案する。
キーとなるアイデアは、各観測されたラベルを、モデルの予測と、アノテータの学習した専門知識によって重み付けられた均一なランダムな推測の混合としてモデル化することである。
我々はREALMを、タスク間のアノテータ毎の信頼性をキャプチャする専門知識マトリックスを通じて、マルチタスク設定に拡張する。
我々は,Flan-T5の3つのサイズをシミュレートされたノイズアノテーションの下で微調整した5つの質問応答ベンチマークを評価した。
提案アルゴリズムは、データセット、モデルサイズ、ノイズタイプにまたがる単一タスクおよびマルチタスク設定の大部分において、ノイズの多いノイズの多いSFTを一貫して上回る。
関連論文リスト
- QuMAB: Query-based Multi-Annotator Behavior Modeling with Reliability under Sparse Labels [23.555446749682467]
マルチアノテーション学習は伝統的に、様々なアノテーションを集約して単一の真実を近似し、不一致をノイズとして扱う。
本稿では,サンプル・ワイド・アグリゲーションからアノテータ・ワイド・ビヘイビア・モデリングへのパラダイムシフトを紹介する。
アノテータの不一致をノイズではなく貴重な情報として扱うことにより、アノテータ固有の行動パターンをモデル化することで、未ラベルデータを再構築してアノテーションコストを低減し、集約信頼性を高め、アノテータの決定動作を説明することができる。
論文 参考訳(メタデータ) (2025-07-23T16:17:43Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds [88.06545572893455]
現実のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテータとインスタンスに依存します。
まず、すべてのアノテータによるノイズパターンの混合をモデル化し、その後、個々のアノテータにこのモデリングを転送する。
実験により、合成および実世界のクラウドソーシングデータに対する提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2023-06-05T13:43:29Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。