論文の概要: Assessing Robustness to Spurious Correlations in Post-Training Language Models
- arxiv url: http://arxiv.org/abs/2505.05704v1
- Date: Fri, 09 May 2025 00:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.11331
- Title: Assessing Robustness to Spurious Correlations in Post-Training Language Models
- Title(参考訳): 学習後言語モデルにおける明瞭な相関に対するロバスト性の評価
- Authors: Julia Shuieh, Prasann Singhal, Apaar Shanker, John Heyer, George Pu, Samuel Denton,
- Abstract要約: 我々は,多種多様な合成課題と刺激条件にまたがる3つのポストトレーニングアルゴリズム – Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), KTO – を評価した。
以上の結果から,高刺激下ではモデルが常に劣化するとは限らないことが示唆された。
- 参考スコア(独自算出の注目度): 0.9071144333827891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised and preference-based fine-tuning techniques have become popular for aligning large language models (LLMs) with user intent and correctness criteria. However, real-world training data often exhibits spurious correlations -- arising from biases, dataset artifacts, or other "shortcut" features -- that can compromise a model's performance or generalization. In this paper, we systematically evaluate three post-training algorithms -- Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and KTO (Kahneman-Tversky Optimization) -- across a diverse set of synthetic tasks and spuriousness conditions. Our tasks span mathematical reasoning, constrained instruction-following, and document-grounded question answering. We vary the degree of spurious correlation (10% vs. 90%) and investigate two forms of artifacts: "Feature Ambiguity" and "Distributional Narrowness." Our results show that the models often but not always degrade under higher spuriousness. The preference-based methods (DPO/KTO) can demonstrate relative robustness in mathematical reasoning tasks. By contrast, SFT maintains stronger performance in complex, context-intensive tasks. These findings highlight that no single post-training strategy universally outperforms in all scenarios; the best choice depends on the type of target task and the nature of spurious correlations.
- Abstract(参考訳): 大型言語モデル(LLM)をユーザの意図や正確性基準と整合させる手法として,監視および嗜好に基づく微調整技術が普及している。
しかしながら、現実のトレーニングデータは、モデルのパフォーマンスや一般化を損なう可能性のある、バイアスやデータセットアーティファクト、その他の"ショートカット"機能から生じる、急激な相関を示すことが多い。
本稿では,教師付き微調整(SFT),直接選好最適化(DPO),KTO(Kahneman-Tversky Optimization)の3つのポストトレーニングアルゴリズムを,多種多様な合成タスクと刺激条件で体系的に評価する。
我々のタスクは、数学的推論、制約付き命令追従、文書化された質問応答にまたがる。
相関関係の程度(10% vs. 90%)を異なっており、「機能的あいまいさ」と「分布的狭さ」の2種類のアーティファクトについて検討している。
以上の結果から,高刺激下ではモデルが常に劣化するとは限らないことが示唆された。
嗜好に基づく手法(DPO/KTO)は、数学的推論タスクにおいて相対的な堅牢性を示すことができる。
対照的に、SFTは複雑な文脈集約的なタスクにおいてより強力なパフォーマンスを維持している。
これらの結果から,全てのシナリオにおいて,訓練後戦略が普遍的に優れることはないことが示唆された。
関連論文リスト
- Intrinsic Bias is Predicted by Pretraining Data and Correlates with Downstream Performance in Vision-Language Encoders [13.474737752636608]
本稿は,CLIPモデルの上流事前学習要因と下流性能が内在バイアスにどのように関係しているかを,これまでで最大の包括的分析結果として提示する。
55のアーキテクチャを使用して,26のデータセットでトレーニングされた131のCLIPモデルを,さまざまなサイズで検討した。
事前トレーニングデータセットの選択がバイアスの上流で最も重要な予測要因であることに気付きました。
論文 参考訳(メタデータ) (2025-02-11T21:11:47Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。
認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。
予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。