論文の概要: Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification
- arxiv url: http://arxiv.org/abs/2511.19486v1
- Date: Sun, 23 Nov 2025 05:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.032768
- Title: Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification
- Title(参考訳): 限られた人的データを持つ大言語モデルを用いた効率的な推論:細調整と整形
- Authors: Lei Wang, Zikun Ye, Jinglong Zhao,
- Abstract要約: 微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。
この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。
実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
- 参考スコア(独自算出の注目度): 2.503562746177713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by recent advances in artificial intelligence (AI), a growing body of work demonstrates the potential of using large language models (LLMs) to generate human-like responses in market research and social science applications. Two primary approaches can be applied to improve the performance of LLMs: fine-tuning, which aligns LLM predictions more closely with human responses, and rectification, which corrects biases in LLM outputs. In this paper, we develop a framework that combines fine-tuning and rectification, and optimally allocates limited labeled samples across the two stages. Unlike the conventional objective that minimizes the mean squared prediction errors, we propose to minimize the variance of the prediction errors as the fine-tuning objective, which is optimal for the downstream rectification stage. Building on this insight, we leverage empirical scaling laws to develop a data-driven method for optimally splitting samples between the fine-tuning and rectification stages. Empirical analysis validates our framework, demonstrating improved estimation and inference performance compared to using either fine-tuning or rectification alone.
- Abstract(参考訳): 人工知能(AI)の最近の進歩によって、成長する研究機関は、市場研究や社会科学の応用において人間のような反応を生成するために、大きな言語モデル(LLM)を使用する可能性を示している。
LLMの予測を人間の反応とより密に整合させるファインチューニングと、LLM出力のバイアスを補正する修正である。
本稿では,微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。
平均二乗予測誤差を最小化する従来の目的とは異なり、下流の修正段階に最適な微調整対象として予測誤差の分散を最小限に抑えることを提案する。
この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。
実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
関連論文リスト
- Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization [40.8414358896996]
信頼誘導推論経路優先最適化(CGPO)を提案する。
CGPOは、軌道ドリフトを緩和するために、自己生成非人間的な推論パスガイダンスを適用している。
提案手法は,強いモデルや人手による注釈付きデータを用いた手法と比較して,ほとんどの場合において優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-10-13T07:51:16Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [51.74394601039711]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。