論文の概要: Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability
- arxiv url: http://arxiv.org/abs/2510.06084v1
- Date: Tue, 07 Oct 2025 16:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.344931
- Title: Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability
- Title(参考訳): スペクトルチューニング: 分散カバレッジとインコンテキストステアビリティのためのポストトレーニング
- Authors: Taylor Sorensen, Benjamin Newman, Jared Moore, Chan Park, Jillian Fisher, Niloofar Mireshghallah, Liwei Jiang, Yejin Choi,
- Abstract要約: 条件付き分散モデリングのための3つのデシラタを特徴付ける: 文脈内ステアビリティ、有効出力空間カバレッジ、分布アライメント。
現在のポストトレーニング技術は、基礎となる能力と知識を引き出すのに役立ちますが、モデルがコンテキスト内で柔軟に操縦する能力を傷つけます。
そこで我々はSpectrum Suiteを用いたポストトレーニング手法であるSpectrum Tuningを提案する。
- 参考スコア(独自算出の注目度): 45.61076791574101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model post-training has enhanced instruction-following and performance on many downstream tasks, but also comes with an often-overlooked cost on tasks with many possible valid answers. We characterize three desiderata for conditional distributional modeling: in-context steerability, valid output space coverage, and distributional alignment, and document across three model families how current post-training can reduce these properties. In particular, we disambiguate between two kinds of in-context learning: ICL for eliciting existing underlying knowledge or capabilities, and in-context steerability, where a model must use in-context information to override its priors and steer to a novel data generating distribution. To better evaluate and improve these desiderata, we introduce Spectrum Suite, a large-scale resource compiled from >40 data sources and spanning >90 tasks requiring models to steer to and match diverse distributions ranging from varied human preferences to numerical distributions and more. We find that while current post-training techniques help elicit underlying capabilities and knowledge, they hurt models' ability to flexibly steer in-context. To mitigate these issues, we propose Spectrum Tuning, a post-training method using Spectrum Suite to improve steerability and distributional coverage. We find that Spectrum Tuning often improves over pretrained models and their instruction-tuned counterparts, enhancing steerability, spanning more of the output space, and improving distributional alignment on held-out datasets.
- Abstract(参考訳): 言語モデルのポストトレーニングでは、多くのダウンストリームタスクにおける命令フォローとパフォーマンスが強化されているが、多くの有効な回答があるタスクでは見過ごされがちなコストも伴っている。
条件付き分散モデリングのための3つのデシラタを特徴付ける: 文脈内ステアビリティ、有効出力空間カバレッジ、分散アライメント、および3つのモデルファミリ間の文書化。
特に、既存の知識や能力を引き出すためのICLと、モデルがその先行情報をオーバーライドするためにコンテキスト内情報を使用し、新しいデータ生成ディストリビューションに操るコンテキスト内ステアビリティの2つの種類を曖昧にしています。
そこで本研究では,40以上のデータソースと90以上のタスクにまたがる大規模リソースであるSpectrum Suiteを紹介する。
現在のポストトレーニング技術は、基礎となる能力と知識を引き出すのに役立ちますが、モデルがコンテキスト内で柔軟に操縦する能力を傷つけます。
これらの問題を緩和するために,Spectrum Suiteを用いたポストトレーニング手法であるSpectrum Tuningを提案する。
スペクトルチューニングは、事前訓練されたモデルとその命令で調整されたモデルよりも改善され、ステアビリティが向上し、出力スペースを拡大し、保持されたデータセットの分散アライメントが向上する。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - One-Shot Heterogeneous Federated Learning with Local Model-Guided Diffusion Models [40.83058938096914]
FedLMGは局所モデル誘導拡散モデルを用いた単発フェデレーション学習法である。
クライアントはファンデーションモデルにアクセスする必要はなく、ローカルモデルのトレーニングとアップロードのみを行う。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Input-Output Balanced Framework for Long-tailed LiDAR Semantic
Segmentation [12.639524717464509]
本稿では,ロングテール分布の問題を扱うための入出力バランスフレームワークを提案する。
入力空間に対して、メッシュモデルからこれらのテールインスタンスを合成し、LiDARスキャンの位置と密度分布をうまくシミュレートする。
出力空間に対して, 形状と実例量に基づいて, 異なるカテゴリをグループ化するマルチヘッドブロックを提案する。
論文 参考訳(メタデータ) (2021-03-26T05:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。