論文の概要: Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety
- arxiv url: http://arxiv.org/abs/2506.05451v1
- Date: Thu, 05 Jun 2025 17:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.174661
- Title: Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety
- Title(参考訳): 解釈と安全性: LLMの安全性向上のための解釈方法とツールに関する調査
- Authors: Seongmin Lee, Aeree Cho, Grace C. Kim, ShengYun Peng, Mansi Phute, Duen Horng Chau,
- Abstract要約: 大規模言語モデル(LLM)は、より広い現実世界での使用、安全でない振る舞いの理解と緩和が不可欠である。
我々は,このギャップを埋める最初の調査を行い,安全性を重視した解釈手法と,それらに通知する安全性向上と,それらを運用するツールを結合する統一的なフレームワークを紹介した。
- 参考スコア(独自算出の注目度): 18.43622753923107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) see wider real-world use, understanding and mitigating their unsafe behaviors is critical. Interpretation techniques can reveal causes of unsafe outputs and guide safety, but such connections with safety are often overlooked in prior surveys. We present the first survey that bridges this gap, introducing a unified framework that connects safety-focused interpretation methods, the safety enhancements they inform, and the tools that operationalize them. Our novel taxonomy, organized by LLM workflow stages, summarizes nearly 70 works at their intersections. We conclude with open challenges and future directions. This timely survey helps researchers and practitioners navigate key advancements for safer, more interpretable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界で広く使われるようになると、安全でない振る舞いを理解し、緩和することが重要である。
解釈技術は、安全でないアウトプットの原因を明らかにし、安全を導くことができるが、そのような安全との関係は以前の調査では見過ごされがちである。
我々は,このギャップを埋める最初の調査を行い,安全性を重視した解釈手法と,それらに通知する安全性向上と,それらを運用するツールを結合する統一的なフレームワークを紹介した。
LLMワークフローの段階によって組織された我々の新しい分類法は、その交差点で70近い著作を要約する。
オープンな課題と今後の方向性で締めくくります。
このタイムリーな調査は、研究者や実践者がより安全で解釈可能なLLMのための重要な進歩をナビゲートするのに役立ちます。
関連論文リスト
- A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [311.5236785327785]
本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する "フルスタック" の安全性の概念を紹介する。
我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。
本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
論文 参考訳(メタデータ) (2025-04-22T05:02:49Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Towards Inference-time Category-wise Safety Steering for Large Language Models [3.712541089289745]
大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
論文 参考訳(メタデータ) (2024-10-02T02:02:06Z) - ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages [45.16862486631841]
ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。
このギャップを埋めるために、ツール学習においてLLMに関連する安全性問題を調べるための包括的なフレームワークである*ToolSword*を紹介します。
論文 参考訳(メタデータ) (2024-02-16T15:19:46Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。