Fugu-MT 論文翻訳(概要): Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

論文の概要: Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets

arxiv url: http://arxiv.org/abs/2406.08124v2
Date: Wed, 18 Dec 2024 03:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.820735
Title: Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets
Title（参考訳）: 伝説: 参照データセットの安全マージンにアノテーションを付けるために表現工学を活用する
Authors: Duanyu Feng, Bowen Qin, Chen Huang, Youcheng Huang, Zheng Zhang, Wenqiang Lei,
Abstract要約: 本稿では,利幅拡大された選好データセット開発を促進するための効果的で費用効率のよいフレームワークを提案する。我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。 LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。
参考スコア（独自算出の注目度）: 24.32901991469196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of the reward model in distinguishing between responses with subtle safety differences depends critically on the high-quality preference dataset, which should capture the fine-grained nuances of harmful and harmless responses. This motivates the need to develop a dataset involving preference margins, which accurately quantify how harmless one response is compared to another. In this paper, we take the first step to propose an effective and cost-efficient framework to promote the margin-enhanced preference dataset development. Our framework, Legend, Leverages representation engineering to annotate preference datasets. It constructs the specific direction within the LLM's embedding space that represents safety. By leveraging this safety direction, Legend can then leverage the semantic distances of paired responses along this direction to annotate margins automatically. We experimentally demonstrate our effectiveness in both reward modeling and harmless alignment for LLMs. Legend also stands out for its efficiency, requiring only the inference time rather than additional training. This efficiency allows for easier implementation and scalability, making Legend particularly valuable for practical applications in aligning LLMs with safe conversations.
Abstract（参考訳）: 微妙な安全性の相違のある応答を区別する報酬モデルの成功は、有害で無害な応答のきめ細かいニュアンスを捉える高品質な選好データセットに大きく依存する。これは、一方の応答が他方と比較してどれだけ無害であるかを正確に定量化する、選好マージンを含むデータセットを開発する必要性を動機付けている。本稿では,利幅拡大された選好データセット開発を促進するための,効率的で費用効率のよいフレームワークを提案する。我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。 LLMの埋め込み空間内で、安全性を表す特定の方向を構築する。この安全性の方向性を活用することで、レジェンドはペア化された応答のセマンティックな距離をこの方向に沿って利用し、自動的にマージンをアノテートすることができる。 LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。レジェンドはその効率も際立っており、追加のトレーニングではなく推論時間のみを必要とする。この効率性により、実装とスケーラビリティがより簡単になり、安全な会話でLLMを整列させる実践的なアプリケーションに特に価値がある。

関連論文リスト

GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [23.667160042806064]
GUARDは、データ属性を通じて学習と保持をガイドする新しいフレームワークである。 GUARDは中核として、LLMアンラーニングに適した軽量なプロキシデータ属性メトリックを導入している。我々は,GUARDが従来手法に匹敵するメトリクスを忘れつつ,保持性を大幅に向上させるという厳密な理論的保証を提供する。
論文参考訳（メタデータ） (2025-06-12T17:49:09Z)
Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文参考訳（メタデータ） (2025-02-26T02:19:10Z)
LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency [11.295036269748731]
本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
論文参考訳（メタデータ） (2024-12-30T15:10:57Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。 LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文参考訳（メタデータ） (2024-10-14T21:48:14Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
論文参考訳（メタデータ） (2024-09-17T22:40:54Z)
Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文参考訳（メタデータ） (2024-09-05T14:35:35Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。 Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文参考訳（メタデータ） (2024-05-27T05:04:05Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs [9.624124576891075]
既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
論文参考訳（メタデータ） (2024-03-30T22:41:05Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文参考訳（メタデータ） (2023-10-13T03:39:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。