論文の概要: RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions
- arxiv url: http://arxiv.org/abs/2511.21568v1
- Date: Wed, 26 Nov 2025 16:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.199189
- Title: RoParQ: Paraphrase-Aware Alignment of Large Language Models Towards Robustness to Paraphrased Questions
- Title(参考訳): RoParQ: パラフレーズを意識した大規模言語モデルのロバスト性へのアライメント
- Authors: Minjoon Choi,
- Abstract要約: 大規模言語モデル(LLM)は、パラフレーズ付き質問に答えるときに矛盾する振る舞いを示すことが多い。
クローズドブック多重選択QAにおけるクロスパラフレーズ一貫性を評価するベンチマークであるRoParQを紹介する。
また、モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit inconsistent behavior when answering paraphrased questions, suggesting a reliance on surface-level patterns rather than true semantic understanding. To address this limitation, we introduce RoParQ, a benchmark specifically constructed to evaluate cross-paraphrase consistency in closed-book multiple-choice QA. This benchmark is derived from standard datasets by generating paraphrases via proprietary models and selectively retaining examples that elicit inconsistent confidence from a judge model. We further propose XParaCon, a novel evaluation metric that quantifies a model's robustness by measuring the standard deviation of accuracies across question variants. Additionally, we implement a reasoning-based, paraphrase-aware Supervised Fine-Tuning (SFT) strategy designed to align models toward semantic invariance. Our experiments demonstrate that this targeted alignment significantly enhances robustness. Notably, fine-tuned lightweight models achieved consistency levels comparable to much larger pre-trained models. These results highlight the efficacy of our approach in mitigating superficial memorization and fostering more robust, reliable LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言い換えられた質問に答えるときに矛盾した振る舞いを示すことが多く、真の意味的理解よりも表面レベルのパターンに依存することを示唆している。
この制限に対処するために、閉本多重選択QAにおけるクロスパラフレーズ整合性を評価するために特別に構築されたベンチマークであるRoParQを紹介する。
このベンチマークは、プロプライエタリなモデルを通じてパラフレーズを生成し、ジャッジモデルから一貫性のない信頼性を引き出すサンプルを選択的に保持することで、標準データセットから導かれる。
さらに,問題変種間の精度の標準偏差を測定することにより,モデルのロバスト性を定量化する新しい評価指標XParaConを提案する。
さらに,意味的不変性(semantic invariance)に対してモデルを整合させるために,推論に基づくスーパーバイス・ファイン・チューニング(SFT)戦略を実装した。
我々の実験は、この標的アライメントがロバスト性を大幅に向上させることを示した。
特に、微調整された軽量モデルは、より大規模な事前訓練されたモデルに匹敵する一貫性を達成した。
これらの結果は,表層記憶を緩和し,より堅牢で信頼性の高いLDMを育成するためのアプローチの有効性を強調した。
関連論文リスト
- When Words Change the Model: Sensitivity of LLMs for Constraint Programming Modelling [1.052782170493037]
大きな言語モデルは、古典的なベンチマークのモデルを自動的に生成する素晴らしい結果を示している。
多くの標準CP問題は、これらのモデルのトレーニングデータに含まれる可能性が高い。
LLMは構文的に妥当で意味論的に妥当なモデルを生成することができるが、その性能は文脈的・言語学的に著しく低下する。
論文 参考訳(メタデータ) (2025-11-18T10:40:32Z) - Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。
主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。
モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文 参考訳(メタデータ) (2025-10-24T10:06:21Z) - VAL-Bench: Measuring Value Alignment in Language Models [10.745372809345412]
大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。
既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。
VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
論文 参考訳(メタデータ) (2025-10-06T23:55:48Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。