論文の概要: Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets
- arxiv url: http://arxiv.org/abs/2406.08124v2
- Date: Wed, 18 Dec 2024 03:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:10.961046
- Title: Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets
- Title(参考訳): 伝説: 参照データセットの安全マージンにアノテーションを付けるために表現工学を活用する
- Authors: Duanyu Feng, Bowen Qin, Chen Huang, Youcheng Huang, Zheng Zhang, Wenqiang Lei,
- Abstract要約: 本稿では,利幅拡大された選好データセット開発を促進するための効果的で費用効率のよいフレームワークを提案する。
我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。
LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
- 参考スコア(独自算出の注目度): 24.32901991469196
- License:
- Abstract: The success of the reward model in distinguishing between responses with subtle safety differences depends critically on the high-quality preference dataset, which should capture the fine-grained nuances of harmful and harmless responses. This motivates the need to develop a dataset involving preference margins, which accurately quantify how harmless one response is compared to another. In this paper, we take the first step to propose an effective and cost-efficient framework to promote the margin-enhanced preference dataset development. Our framework, Legend, Leverages representation engineering to annotate preference datasets. It constructs the specific direction within the LLM's embedding space that represents safety. By leveraging this safety direction, Legend can then leverage the semantic distances of paired responses along this direction to annotate margins automatically. We experimentally demonstrate our effectiveness in both reward modeling and harmless alignment for LLMs. Legend also stands out for its efficiency, requiring only the inference time rather than additional training. This efficiency allows for easier implementation and scalability, making Legend particularly valuable for practical applications in aligning LLMs with safe conversations.
- Abstract(参考訳): 微妙な安全性の相違のある応答を区別する報酬モデルの成功は、有害で無害な応答のきめ細かいニュアンスを捉える高品質な選好データセットに大きく依存する。
これは、一方の応答が他方と比較してどれだけ無害であるかを正確に定量化する、選好マージンを含むデータセットを開発する必要性を動機付けている。
本稿では,利幅拡大された選好データセット開発を促進するための,効率的で費用効率のよいフレームワークを提案する。
我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。
LLMの埋め込み空間内で、安全性を表す特定の方向を構築する。
この安全性の方向性を活用することで、レジェンドはペア化された応答のセマンティックな距離をこの方向に沿って利用し、自動的にマージンをアノテートすることができる。
LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
レジェンドはその効率も際立っており、追加のトレーニングではなく推論時間のみを必要とする。
この効率性により、実装とスケーラビリティがより簡単になり、安全な会話でLLMを整列させる実践的なアプリケーションに特に価値がある。
関連論文リスト
- LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency [11.295036269748731]
本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。
事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
論文 参考訳(メタデータ) (2024-12-30T15:10:57Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。
オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T04:00:30Z) - Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。
我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。
実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-30T22:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。