論文の概要: Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains
- arxiv url: http://arxiv.org/abs/2601.13137v1
- Date: Mon, 19 Jan 2026 15:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.948698
- Title: Adversarial Alignment: Ensuring Value Consistency in Large Language Models for Sensitive Domains
- Title(参考訳): 対立アライメント: 感性ドメインのための大規模言語モデルにおける値整合性を保証する
- Authors: Yuan Gao, Zhigang Liu, Xinyu Yao, Bo Chen, Xiaobing Zhao,
- Abstract要約: 本稿では,モデルの価値整合性を高める逆アライメントフレームワークを提案する。
敵のトレーニングでは、アタッカーを使って議論を呼んでいるクエリを生成し、アクターは値整合性でレスポンスを生成し、Criticはレスポンスの品質をフィルタリングし、保証します。
実験の結果,VC-LLMは中国語と英語の両方のテストにおいて,既存の主流モデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 9.949435875140523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the wide application of large language models (LLMs), the problems of bias and value inconsistency in sensitive domains have gradually emerged, especially in terms of race, society and politics. In this paper, we propose an adversarial alignment framework, which enhances the value consistency of the model in sensitive domains through continued pre-training, instruction fine-tuning and adversarial training. In adversarial training, we use the Attacker to generate controversial queries, the Actor to generate responses with value consistency, and the Critic to filter and ensure response quality. Furthermore, we train a Value-Consistent Large Language Model, VC-LLM, for sensitive domains, and construct a bilingual evaluation dataset in Chinese and English. The experimental results show that VC-LLM performs better than the existing mainstream models in both Chinese and English tests, verifying the effectiveness of the method. Warning: This paper contains examples of LLMs that are offensive or harmful in nature.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な適用により、特に人種、社会、政治の観点から、センシティブなドメインにおけるバイアスと価値の不整合の問題が徐々に現れてきた。
本稿では,先行訓練,命令微調整,対向訓練を継続することにより,センシティブドメインにおけるモデルの値整合性を向上する逆アライメントフレームワークを提案する。
敵のトレーニングでは、アタッカーを使って議論を呼んでいるクエリを生成し、アクターは値整合性でレスポンスを生成し、Criticはレスポンスの品質をフィルタリングし、保証します。
さらに、センシティブなドメインに対して、VC-LLM(Value-Consistent Large Language Model)をトレーニングし、中国語と英語でバイリンガル評価データセットを構築する。
実験の結果,VC-LLMは中国語と英語の両試験において,既存の主流モデルよりも優れた性能を示し,本手法の有効性を検証した。
警告: 本論文は、自然界で有害または有害なLSMの例を含む。
関連論文リスト
- Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Influence Guided Context Selection for Effective Retrieval-Augmented Generation [23.188397777606095]
Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の幻覚に対処する。
既存のアプローチは、定義済みのコンテキスト品質評価指標に基づいて、コンテキスト選択によるパフォーマンスの向上を試みる。
我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
リストから各コンテキストを除去する際の性能劣化を測定することにより、コンテキスト品質を定量化する。
論文 参考訳(メタデータ) (2025-09-21T07:19:09Z) - Adversarial Attack Classification and Robustness Testing for Large Language Models for Code [19.47426054151291]
本研究では,自然言語入力における逆方向の摂動がLarge Language Models for Code(LLM4Code)に与える影響について検討する。
文字、単語、文レベルにおける摂動の影響を調べ、最も影響の大きい脆弱性を特定する。
論文 参考訳(メタデータ) (2025-06-09T17:02:29Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。
マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-28T03:31:37Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。