論文の概要: Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs
- arxiv url: http://arxiv.org/abs/2510.14242v1
- Date: Thu, 16 Oct 2025 02:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.685868
- Title: Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs
- Title(参考訳): Flip-Flop Consistency:LLMの急激な摂動に対するロバストネスの教師なしトレーニング
- Authors: Parsa Hejabi, Elnaz Rahmati, Alireza S. Ziabari, Morteza Dehghani,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
Flip-Flop Consistency(F2C$)を提案する。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
- 参考スコア(独自算出の注目度): 2.125148574616104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often produce inconsistent answers when faced with different phrasings of the same prompt. In this paper, we propose Flip-Flop Consistency ($F^2C$), an unsupervised training method that improves robustness to such perturbations. $F^2C$ is composed of two key components. The first, Consensus Cross-Entropy (CCE), uses a majority vote across prompt variations to create a hard pseudo-label. The second is a representation alignment loss that pulls lower-confidence and non-majority predictors toward the consensus established by high-confidence, majority-voting variations. We evaluate our method on 11 datasets spanning four NLP tasks, with 4-15 prompt variations per dataset. On average, $F^2C$ raises observed agreement by 11.62%, improves mean $F_1$ by 8.94%, and reduces performance variance across formats by 3.29%. In out-of-domain evaluations, $F^2C$ generalizes effectively, increasing $\overline{F_1}$ and agreement while decreasing variance across most source-target pairs. Finally, when trained on only a subset of prompt perturbations and evaluated on held-out formats, $F^2C$ consistently improves both performance and agreement while reducing variance. These findings highlight $F^2C$ as an effective unsupervised method for enhancing LLM consistency, performance, and generalization under prompt perturbations. Code is available at https://github.com/ParsaHejabi/Flip-Flop-Consistency-Unsupervised-Training-for-Robustness-to-Prompt- Perturbations-in-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
本稿では、このような摂動に対する堅牢性を改善する教師なしのトレーニング手法であるFlip-Flop Consistency(F^2C$)を提案する。
F^2C$は2つのキーコンポーネントから構成される。
第1回Consensus Cross-Entropy (CCE)は、急進的な変奏に対して多数決を行い、硬い擬似ラベルを作成する。
2つ目は、高信頼で多数投票のバリエーションによって確立されたコンセンサスに向けて、低信頼と非マジョリティ予測者を引っ張り出す表現アライメント損失である。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
F^2C$は平均で11.62%、平均$F_1$を8.94%改善し、フォーマット間のパフォーマンスのばらつきを3.29%低減する。
領域外評価では、$F^2C$が効果的に一般化され、$\overline{F_1}$が増加し、多くのソースとターゲットのペア間の分散が減少する。
最後に、急激な摂動のサブセットのみをトレーニングし、ホールドアウトフォーマットで評価すると、$F^2C$は分散を減らしながら、パフォーマンスとアグリーメントの両方を一貫して改善する。
これらの結果から, 急激な摂動下でのLCMの整合性, 性能, 一般化を向上するための効果的な教師なし手法として, $F^2C$ が注目された。
コードはhttps://github.com/ParsaHejabi/Flip-Flop-Consistency-Unsupervised-Training-for-Robustness-to-Prompt- Perturbations-in-LLMsで公開されている。
関連論文リスト
- Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Do Repetitions Matter? Strengthening Reliability in LLM Evaluations [0.374750127323442]
LLMのリーダーボードはシングルランに依存することが多いが、信頼できる結論を得るために何回繰り返しが必要なのかは不明だ。
我々は、AI4Mathベンチマークで8つの最先端モデルを再評価し、設定ごとに3つの独立した実行を実行しました。
論文 参考訳(メタデータ) (2025-09-28T21:45:20Z) - DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment [0.0]
人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
DRO-REBELは、タイプ=$p$Wasserstein, KL, $chi2$ ambiguity集合を持つ堅牢なREBEL更新の集合である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
論文 参考訳(メタデータ) (2025-09-23T14:49:48Z) - The Differences Between Direct Alignment Algorithms are a Blur [3.0059120458540383]
1段階法(ORPO, ASFT)は2段階法に比べて性能が低いことを示す。
明示的なSFTフェーズで2段階のセットアップに適応させることで性能が向上することを示す。
総合的な分析により、ペアワイドとポイントワイドの目的の選択がアライメントの成功の主要な決定要因であることが判明した。
論文 参考訳(メタデータ) (2025-02-03T10:54:14Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。