論文の概要: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- arxiv url: http://arxiv.org/abs/2501.13952v2
- Date: Thu, 27 Feb 2025 07:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.368569
- Title: The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility?
- Title(参考訳): LLMにおけるデュアルユースジレンマ: 倫理能力の強化は実用性を低下させるか?
- Authors: Yiyi Zhang, Xingyu Chen, Kexin Chen, Yuyang Du, Xilin Dang, Pheng-Ann Heng,
- Abstract要約: 大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
- 参考スコア(独自算出の注目度): 54.18519360412294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed extensive efforts to enhance Large Language Models (LLMs) across various domains, alongside growing attention to their ethical implications. However, a critical challenge remains largely overlooked: LLMs must balance between rejecting harmful requests for safety and accommodating legitimate ones for utility. This paper presents a Direct Preference Optimization (DPO) based alignment framework that achieves better overall performance by addressing this ethical-utility trade-off, using chemical domain applications as a proof-of-concept. Our alignment pipeline starts with a GPT-assisted three-phase data generation scheme, in which we create LibraChemQA, a chemical question-answering dataset comprising 31.6k triplet instances. By incorporating an innovative balanced seed in the data generation process, our framework systematically considers both legitimate and illegitimate requests. The framework also introduces a rephrasing mechanism for efficient data augmentation that enhances the model's chemical comprehension. We further develop a novel hybrid evaluation scheme with LLM judges for precise assessment of both safety and utility. Experimental results demonstrate our model's substantial improvements in overall performance where both safety and utility are considered - the resulting model outperforms leading LLMs including Claude-3, GPT-4o, and LLaMA-3 by margins of 13.44%, 7.16%, and 7.10% respectively on our released benchmark. At the end of this paper, we analyze experimental results obtained from testing DeepSeek-R1 on our benchmark and reveal the critical ethical concerns raised by this highly acclaimed model. We highlight that the long Chain-of-Thought (CoT) reasoning process employed by DeepSeek-R1, as well as other LLMs distilled from it, introduces significant ethical vulnerabilities when exposed to users.
- Abstract(参考訳): 近年、様々な領域にわたるLarge Language Models(LLM)の強化や、その倫理的意味への関心が高まっている。
LLMは、安全のための有害な要求を拒絶することと、ユーティリティのための正当な要求を収容することのバランスをとらなければならない。
本稿では, この倫理的効用トレードオフに対処し, 概念実証として化学分野の応用を応用し, 全体的な性能を向上する, 直接選好最適化(DPO)に基づくアライメントフレームワークを提案する。
我々のアライメントパイプラインは、GPTによる3相データ生成スキームから始まり、31.6k三重項インスタンスからなる化学問合せデータセットであるLibraChemQAを作成する。
データ生成プロセスに革新的なバランスの取れたシードを組み込むことで、我々のフレームワークは、正当性と不正な要求の両方を体系的に検討する。
このフレームワークは、モデルの化学的理解を高める効率的なデータ拡張のための言い換え機構も導入している。
さらに, 安全性と実用性の両方を正確に評価するために, LLM審査員による新しいハイブリッド評価手法を開発した。
その結果,Claude-3,GPT-4o,LLaMA-3などのLCMをそれぞれ13.44%,7.16%,7.10%のマージンで比較した。
本稿では,DeepSeek-R1をベンチマークでテストした結果を解析し,この高評価モデルによる批判的倫理的懸念を明らかにする。
我々は、DeepSeek-R1が採用している長いチェーン・オブ・ソート(CoT)推論プロセスと、それから抽出した他のLCMが、ユーザに暴露された場合に重大な倫理的脆弱性をもたらすことを強調した。
関連論文リスト
- Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。
LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。
さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文 参考訳(メタデータ) (2025-04-06T06:36:45Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model [37.58316550920225]
我々は,大規模ユーザモデル(LUM)を導入し,産業環境の厳しい要件を満たすとともに,スケーラブルなレコメンデーションの可能性を開放する。
LUMは優れたスケーラビリティを示し、モデルが70億のパラメータにスケールするにつれてパフォーマンスが向上する。
我々はLUMを産業用アプリケーションに導入し、A/Bテストで大きな成果を上げ、その有効性と実用性を検証した。
論文 参考訳(メタデータ) (2025-02-12T11:23:46Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - Minimizing Factual Inconsistency and Hallucination in Large Language
Models [0.16417409087671928]
大規模言語モデル(LLM)は医療、教育、金融といった重要な分野で広く使われている。
本稿では,まず理性を生成する多段階フレームワークを提案する。
当社のフレームワークは,OpenAI GPT-3.5-turboの信頼性を14~25%向上し,2つのデータセットに対して16~22%向上させることで,従来の検索拡張生成(RAG)を改善する。
論文 参考訳(メタデータ) (2023-11-23T09:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。