論文の概要: Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs
- arxiv url: http://arxiv.org/abs/2510.14242v1
- Date: Thu, 16 Oct 2025 02:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.685868
- Title: Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs
- Title(参考訳): Flip-Flop Consistency:LLMの急激な摂動に対するロバストネスの教師なしトレーニング
- Authors: Parsa Hejabi, Elnaz Rahmati, Alireza S. Ziabari, Morteza Dehghani,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
Flip-Flop Consistency(F2C$)を提案する。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
- 参考スコア(独自算出の注目度): 2.125148574616104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often produce inconsistent answers when faced with different phrasings of the same prompt. In this paper, we propose Flip-Flop Consistency ($F^2C$), an unsupervised training method that improves robustness to such perturbations. $F^2C$ is composed of two key components. The first, Consensus Cross-Entropy (CCE), uses a majority vote across prompt variations to create a hard pseudo-label. The second is a representation alignment loss that pulls lower-confidence and non-majority predictors toward the consensus established by high-confidence, majority-voting variations. We evaluate our method on 11 datasets spanning four NLP tasks, with 4-15 prompt variations per dataset. On average, $F^2C$ raises observed agreement by 11.62%, improves mean $F_1$ by 8.94%, and reduces performance variance across formats by 3.29%. In out-of-domain evaluations, $F^2C$ generalizes effectively, increasing $\overline{F_1}$ and agreement while decreasing variance across most source-target pairs. Finally, when trained on only a subset of prompt perturbations and evaluated on held-out formats, $F^2C$ consistently improves both performance and agreement while reducing variance. These findings highlight $F^2C$ as an effective unsupervised method for enhancing LLM consistency, performance, and generalization under prompt perturbations. Code is available at https://github.com/ParsaHejabi/Flip-Flop-Consistency-Unsupervised-Training-for-Robustness-to-Prompt- Perturbations-in-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
本稿では、このような摂動に対する堅牢性を改善する教師なしのトレーニング手法であるFlip-Flop Consistency(F^2C$)を提案する。
F^2C$は2つのキーコンポーネントから構成される。
第1回Consensus Cross-Entropy (CCE)は、急進的な変奏に対して多数決を行い、硬い擬似ラベルを作成する。
2つ目は、高信頼で多数投票のバリエーションによって確立されたコンセンサスに向けて、低信頼と非マジョリティ予測者を引っ張り出す表現アライメント損失である。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
F^2C$は平均で11.62%、平均$F_1$を8.94%改善し、フォーマット間のパフォーマンスのばらつきを3.29%低減する。
領域外評価では、$F^2C$が効果的に一般化され、$\overline{F_1}$が増加し、多くのソースとターゲットのペア間の分散が減少する。
最後に、急激な摂動のサブセットのみをトレーニングし、ホールドアウトフォーマットで評価すると、$F^2C$は分散を減らしながら、パフォーマンスとアグリーメントの両方を一貫して改善する。
これらの結果から, 急激な摂動下でのLCMの整合性, 性能, 一般化を向上するための効果的な教師なし手法として, $F^2C$ が注目された。
コードはhttps://github.com/ParsaHejabi/Flip-Flop-Consistency-Unsupervised-Training-for-Robustness-to-Prompt- Perturbations-in-LLMsで公開されている。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning [0.0]
コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
比較損失における正対辺のマージンは、類似度クランプの飽和により適用される。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
論文 参考訳(メタデータ) (2026-03-01T07:00:38Z) - High-Dimensional Robust Mean Estimation with Untrusted Batches [38.14592862692954]
本研究では,N$ユーザによるデータのコントリビューションを行う協調環境での高次元平均推定について検討した。
例えば、$varepsilon$-fraction of users is completely adversarial, and the more good' users provide data from distributions that related to $P$ but deviate by a near parameter $$.
我々のアルゴリズムは、最小最大誤差率$O(sqrtvarepsilon/n + sqrtd/nN + sを達成する。
論文 参考訳(メタデータ) (2026-02-24T08:59:37Z) - Fast-Decoding Diffusion Language Models via Progress-Aware Confidence Schedules [25.251683954675958]
トレーニング不要でモデルに依存しない早期終了アルゴリズムであるSchEDを提案する。
SchEDは完全なロジットマージンを集約し、スムーズで進捗に依存した信頼しきい値が満たされるとデコーディングを停止する。
我々は、SchEDが堅牢であり、信頼に基づく早期退避法よりも明らかに優れていることを示す。
論文 参考訳(メタデータ) (2025-12-02T16:01:08Z) - Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。
PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。
得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文 参考訳(メタデータ) (2025-12-01T02:52:33Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Do Repetitions Matter? Strengthening Reliability in LLM Evaluations [0.374750127323442]
LLMのリーダーボードはシングルランに依存することが多いが、信頼できる結論を得るために何回繰り返しが必要なのかは不明だ。
我々は、AI4Mathベンチマークで8つの最先端モデルを再評価し、設定ごとに3つの独立した実行を実行しました。
論文 参考訳(メタデータ) (2025-09-28T21:45:20Z) - DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment [0.0]
人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
DRO-REBELは、タイプ=$p$Wasserstein, KL, $chi2$ ambiguity集合を持つ堅牢なREBEL更新の集合である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
論文 参考訳(メタデータ) (2025-09-23T14:49:48Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - The Differences Between Direct Alignment Algorithms are a Blur [3.0059120458540383]
1段階法(ORPO, ASFT)は2段階法に比べて性能が低いことを示す。
明示的なSFTフェーズで2段階のセットアップに適応させることで性能が向上することを示す。
総合的な分析により、ペアワイドとポイントワイドの目的の選択がアライメントの成功の主要な決定要因であることが判明した。
論文 参考訳(メタデータ) (2025-02-03T10:54:14Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。