論文の概要: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- arxiv url: http://arxiv.org/abs/2501.13952v1
- Date: Mon, 20 Jan 2025 06:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:30.953362
- Title: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- Title(参考訳): LLMにおけるデュアルユースジレンマ: 倫理能力の強化は実用性を低下させるか?
- Authors: Yiyi Zhang, Xingyu Chen, Kexin Chen, Yuyang Du, Xilin Dang, Pheng-Ann Heng,
- Abstract要約: 大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
- 参考スコア(独自算出の注目度): 54.18519360412294
- License:
- Abstract: Recent years have witnessed extensive efforts to enhance Large Language Models (LLMs) across various domains, alongside growing attention to their ethical implications. However, a critical challenge remains largely overlooked: LLMs must balance between rejecting harmful requests for safety and accommodating legitimate ones for utility. This paper presents a Direct Preference Optimization (DPO) based alignment framework that achieves better overall performance by addressing this ethical-utility trade-off, using chemical domain applications as a proof-of-concept. Our alignment pipeline starts with a GPT-assisted three-phase data generation scheme, in which we create LibraChemQA, a chemical question-answering dataset comprising 31.6k triplet instances. By incorporating an innovative balanced seed in the data generation process, our framework systematically considers both legitimate and illegitimate requests. The framework also introduces a rephrasing mechanism for efficient data augmentation that enhances the model's chemical comprehension. We further develop a novel hybrid evaluation scheme with LLM judges for precise assessment of both safety and utility. Experimental results demonstrate our model's substantial improvements in overall performance where both safety and utility are considered - our resulting model, LibraChem, outperforms leading LLMs including Claude-3, GPT-4o, and LLaMA-3 by margins of 13.44%, 7.16%, and 7.10% respectively on our released benchmark.
- Abstract(参考訳): 近年、様々な領域にわたるLarge Language Models(LLM)の強化や、その倫理的意味への関心が高まっている。
LLMは、安全のための有害な要求を拒絶することと、ユーティリティのための正当な要求を収容することのバランスをとらなければならない。
本稿では, この倫理的効用トレードオフに対処し, 概念実証として化学分野の応用を応用し, 全体的な性能を向上する, 直接選好最適化(DPO)に基づくアライメントフレームワークを提案する。
我々のアライメントパイプラインは、GPTによる3相データ生成スキームから始まり、31.6k三重項インスタンスからなる化学問合せデータセットであるLibraChemQAを作成する。
データ生成プロセスに革新的なバランスの取れたシードを組み込むことで、我々のフレームワークは、正当性と不正な要求の両方を体系的に検討する。
このフレームワークは、モデルの化学的理解を高める効率的なデータ拡張のための言い換え機構も導入している。
さらに, 安全性と実用性の両方を正確に評価するために, LLM審査員による新しいハイブリッド評価手法を開発した。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%のマージンで上回った。
関連論文リスト
- Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model [37.58316550920225]
我々は,大規模ユーザモデル(LUM)を導入し,産業環境の厳しい要件を満たすとともに,スケーラブルなレコメンデーションの可能性を開放する。
LUMは優れたスケーラビリティを示し、モデルが70億のパラメータにスケールするにつれてパフォーマンスが向上する。
我々はLUMを産業用アプリケーションに導入し、A/Bテストで大きな成果を上げ、その有効性と実用性を検証した。
論文 参考訳(メタデータ) (2025-02-12T11:23:46Z) - Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging [35.53877806259048]
本稿では,大規模言語モデル(LLM)におけるモデルマージのための,最初の包括的なベンチマークを確立する。
分析の結果, これまで見過ごされた3H次元間のコラボレーティブ/コンフリクト関係, (ii) 整合性トレードオフのバランスをとる上でのデータ混在アプローチに対するモデルマージの一貫性上の優位性, (iii) 冗長なコンポーネントプルーニングとアウトリー緩和によるパラメータレベルのコンフリクト解決の重要な役割, の3点が明らかになった。
重み付きパラメータの重み付けと、重み付きパラメータに適応したスペーサ適応ランク選択戦略を組み込んだ、重み付け強化タスク特異ベクトルマージ手法であるR-TSVMを提案する。
論文 参考訳(メタデータ) (2025-02-08T11:56:58Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - Minimizing Factual Inconsistency and Hallucination in Large Language
Models [0.16417409087671928]
大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
論文 参考訳(メタデータ) (2023-11-23T09:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。