論文の概要: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- arxiv url: http://arxiv.org/abs/2501.13952v1
- Date: Mon, 20 Jan 2025 06:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:30.953362
- Title: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- Title(参考訳): LLMにおけるデュアルユースジレンマ: 倫理能力の強化は実用性を低下させるか?
- Authors: Yiyi Zhang, Xingyu Chen, Kexin Chen, Yuyang Du, Xilin Dang, Pheng-Ann Heng,
- Abstract要約: 大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
- 参考スコア(独自算出の注目度): 54.18519360412294
- License:
- Abstract: Recent years have witnessed extensive efforts to enhance Large Language Models (LLMs) across various domains, alongside growing attention to their ethical implications. However, a critical challenge remains largely overlooked: LLMs must balance between rejecting harmful requests for safety and accommodating legitimate ones for utility. This paper presents a Direct Preference Optimization (DPO) based alignment framework that achieves better overall performance by addressing this ethical-utility trade-off, using chemical domain applications as a proof-of-concept. Our alignment pipeline starts with a GPT-assisted three-phase data generation scheme, in which we create LibraChemQA, a chemical question-answering dataset comprising 31.6k triplet instances. By incorporating an innovative balanced seed in the data generation process, our framework systematically considers both legitimate and illegitimate requests. The framework also introduces a rephrasing mechanism for efficient data augmentation that enhances the model's chemical comprehension. We further develop a novel hybrid evaluation scheme with LLM judges for precise assessment of both safety and utility. Experimental results demonstrate our model's substantial improvements in overall performance where both safety and utility are considered - our resulting model, LibraChem, outperforms leading LLMs including Claude-3, GPT-4o, and LLaMA-3 by margins of 13.44%, 7.16%, and 7.10% respectively on our released benchmark.
- Abstract(参考訳): 近年、様々な領域にわたるLarge Language Models(LLM)の強化や、その倫理的意味への関心が高まっている。
LLMは、安全のための有害な要求を拒絶することと、ユーティリティのための正当な要求を収容することのバランスをとらなければならない。
本稿では, この倫理的効用トレードオフに対処し, 概念実証として化学分野の応用を応用し, 全体的な性能を向上する, 直接選好最適化(DPO)に基づくアライメントフレームワークを提案する。
我々のアライメントパイプラインは、GPTによる3相データ生成スキームから始まり、31.6k三重項インスタンスからなる化学問合せデータセットであるLibraChemQAを作成する。
データ生成プロセスに革新的なバランスの取れたシードを組み込むことで、我々のフレームワークは、正当性と不正な要求の両方を体系的に検討する。
このフレームワークは、モデルの化学的理解を高める効率的なデータ拡張のための言い換え機構も導入している。
さらに, 安全性と実用性の両方を正確に評価するために, LLM審査員による新しいハイブリッド評価手法を開発した。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%のマージンで上回った。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation [45.31960122494715]
本稿では,LLM 拡張パラダイム LLM4MSR を提案する。
具体的には,まず LLM を利用してシナリオ相関やユーザ間の関心事など多段階の知識を明らかにする。
KuaiSAR-small、KuaiSAR、およびAmazonデータセットに関する我々の実験は、LLM4MSRの2つの重要な利点を検証した。
論文 参考訳(メタデータ) (2024-06-18T11:59:36Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CoEvol: Constructing Better Responses for Instruction Finetuning through Multi-Agent Cooperation [33.33513657902765]
命令に対する応答を改善するためのLLMベースのマルチエージェント協調フレームワークであるCoEvolを提案する。
実証的には、CoEvolを搭載したモデルはMT-BenchとAlpacaEvalで評価された競争ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-11T08:35:37Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Minimizing Factual Inconsistency and Hallucination in Large Language
Models [0.16417409087671928]
大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
論文 参考訳(メタデータ) (2023-11-23T09:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。