論文の概要: Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification
- arxiv url: http://arxiv.org/abs/2511.19486v1
- Date: Sun, 23 Nov 2025 05:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.032768
- Title: Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification
- Title(参考訳): 限られた人的データを持つ大言語モデルを用いた効率的な推論:細調整と整形
- Authors: Lei Wang, Zikun Ye, Jinglong Zhao,
- Abstract要約: 微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。
この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。
実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
- 参考スコア(独自算出の注目度): 2.503562746177713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by recent advances in artificial intelligence (AI), a growing body of work demonstrates the potential of using large language models (LLMs) to generate human-like responses in market research and social science applications. Two primary approaches can be applied to improve the performance of LLMs: fine-tuning, which aligns LLM predictions more closely with human responses, and rectification, which corrects biases in LLM outputs. In this paper, we develop a framework that combines fine-tuning and rectification, and optimally allocates limited labeled samples across the two stages. Unlike the conventional objective that minimizes the mean squared prediction errors, we propose to minimize the variance of the prediction errors as the fine-tuning objective, which is optimal for the downstream rectification stage. Building on this insight, we leverage empirical scaling laws to develop a data-driven method for optimally splitting samples between the fine-tuning and rectification stages. Empirical analysis validates our framework, demonstrating improved estimation and inference performance compared to using either fine-tuning or rectification alone.
- Abstract(参考訳): 人工知能(AI)の最近の進歩によって、成長する研究機関は、市場研究や社会科学の応用において人間のような反応を生成するために、大きな言語モデル(LLM)を使用する可能性を示している。
LLMの予測を人間の反応とより密に整合させるファインチューニングと、LLM出力のバイアスを補正する修正である。
本稿では,微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。
平均二乗予測誤差を最小化する従来の目的とは異なり、下流の修正段階に最適な微調整対象として予測誤差の分散を最小限に抑えることを提案する。
この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。
実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
関連論文リスト
- LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Efficient Inference for Noisy LLM-as-a-Judge Evaluation [8.2511120576505]
大規模言語モデル(LLM)は、生成的AI出力の自動評価器としてますます使われている。
実際には、LLMの判断は根底にある真実の完全な予測であり、体系的な非ランダムな誤りを示すことができる。
論文 参考訳(メタデータ) (2026-01-08T22:46:26Z) - Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization [40.8414358896996]
信頼誘導推論経路優先最適化(CGPO)を提案する。
CGPOは、軌道ドリフトを緩和するために、自己生成非人間的な推論パスガイダンスを適用している。
提案手法は,強いモデルや人手による注釈付きデータを用いた手法と比較して,ほとんどの場合において優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-10-13T07:51:16Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。