論文の概要: A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy
- arxiv url: http://arxiv.org/abs/2501.09431v1
- Date: Thu, 16 Jan 2025 09:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:12:03.276505
- Title: A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy
- Title(参考訳): 責任あるLCMに関する調査--本質的リスク, 悪用, 緩和戦略
- Authors: Huandong Wang, Wenjie Fu, Yingzhou Tang, Zhilong Chen, Yuxi Huang, Jinghua Piao, Chen Gao, Fengli Xu, Tao Jiang, Yong Li,
- Abstract要約: 大規模言語モデル(LLM)は、多くの現実世界のアプリケーションをサポートする大きな可能性を秘めている。
プライバシー漏洩のリスク、幻覚的なアウトプット、そして価値のミスアライメントといった点で、彼らは依然として重大な課題に直面している。
- 参考スコア(独自算出の注目度): 31.839815402460918
- License:
- Abstract: While large language models (LLMs) present significant potential for supporting numerous real-world applications and delivering positive social impacts, they still face significant challenges in terms of the inherent risk of privacy leakage, hallucinated outputs, and value misalignment, and can be maliciously used for generating toxic content and unethical purposes after been jailbroken. Therefore, in this survey, we present a comprehensive review of recent advancements aimed at mitigating these issues, organized across the four phases of LLM development and usage: data collecting and pre-training, fine-tuning and alignment, prompting and reasoning, and post-processing and auditing. We elaborate on the recent advances for enhancing the performance of LLMs in terms of privacy protection, hallucination reduction, value alignment, toxicity elimination, and jailbreak defenses. In contrast to previous surveys that focus on a single dimension of responsible LLMs, this survey presents a unified framework that encompasses these diverse dimensions, providing a comprehensive view of enhancing LLMs to better serve real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの現実世界のアプリケーションをサポートし、ポジティブな社会的影響をもたらす大きな可能性を秘めているが、プライバシリークの固有のリスク、幻覚的アウトプット、価値のミスアライメントの観点からも大きな課題に直面しており、脱獄後に有害なコンテンツや非倫理的目的を生成するために悪用することができる。
そこで本研究では,データ収集と事前学習,微調整とアライメント,プロンプトと推論,後処理と監査の4つの段階にまたがる,これらの課題の緩和を目的とした最近の進歩を概観する。
プライバシー保護,幻覚の低減,価値アライメント,毒性除去,脱獄防御の観点から,LSMの性能向上に向けた最近の進歩について詳述する。
従来のLCMの単一次元に焦点をあてた調査とは対照的に,本調査では,これらの多様な次元を包含する統一的なフレームワークを提示し,実世界のアプリケーションによりよいサービスを提供するためのLLMの拡張に関する総合的な見解を提供する。
関連論文リスト
- Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Security and Privacy Challenges of Large Language Models: A Survey [2.6986500640871482]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。
これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。
この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文 参考訳(メタデータ) (2024-01-30T04:00:54Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment [35.42539816648068]
本稿では,大規模言語モデル(LLM)の評価において考慮すべき重要な要素について,包括的に調査する。
この調査は、信頼性、安全性、公正性、誤用に対する抵抗性、説明可能性と推論、社会的規範への固執、堅牢性の7つの主要なカテゴリーをカバーしている。
結果は、一般に、より整合したモデルは、全体的な信頼性の観点から、より良いパフォーマンスを示す傾向があることを示している。
論文 参考訳(メタデータ) (2023-08-10T06:43:44Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。