Fugu-MT 論文翻訳(概要): LLMScan: Causal Scan for LLM Misbehavior Detection

論文の概要: LLMScan: Causal Scan for LLM Misbehavior Detection

arxiv url: http://arxiv.org/abs/2410.16638v1
Date: Tue, 22 Oct 2024 02:27:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.840184
Title: LLMScan: Causal Scan for LLM Misbehavior Detection
Title（参考訳）: LLMScan:LSMミスビヘイビア検出のための因果スキャン
Authors: Mengdi Zhang, Kai Kiat Goh, Peixin Zhang, Jun Sun,
Abstract要約: 大規模言語モデル(LLM)は、非現実的でバイアスがあり、有害な応答を生成する。この研究は、因果解析に基づく革新的なモニタリング技術であるLLMScanを導入している。
参考スコア（独自算出の注目度）: 6.001414661477911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success of Large Language Models (LLMs) across various fields, their potential to generate untruthful, biased and harmful responses poses significant risks, particularly in critical applications. This highlights the urgent need for systematic methods to detect and prevent such misbehavior. While existing approaches target specific issues such as harmful responses, this work introduces LLMScan, an innovative LLM monitoring technique based on causality analysis, offering a comprehensive solution. LLMScan systematically monitors the inner workings of an LLM through the lens of causal inference, operating on the premise that the LLM's `brain' behaves differently when misbehaving. By analyzing the causal contributions of the LLM's input tokens and transformer layers, LLMScan effectively detects misbehavior. Extensive experiments across various tasks and models reveal clear distinctions in the causal distributions between normal behavior and misbehavior, enabling the development of accurate, lightweight detectors for a variety of misbehavior detection tasks.
Abstract（参考訳）: さまざまな分野にわたるLarge Language Models(LLM)の成功にもかかわらず、非現実的でバイアスのかかる有害な応答を生成する可能性には、特にクリティカルなアプリケーションにおいて大きなリスクが伴う。このことは、このような誤った行動を検出し、予防するための体系的な方法が緊急に必要であることを示している。既存のアプローチは有害な応答などの特定の問題をターゲットにしているが、この研究は因果解析に基づく革新的なLCMモニタリング技術であるLLMScanを導入し、包括的なソリューションを提供する。 LLMScanは、LLMの内部動作を因果推論のレンズを通して体系的に監視し、LLMの「脳」が誤動作時に異なる振る舞いをするという前提で操作する。 LLMの入力トークンとトランスフォーマー層の因果関係を分析することで、LLMSは効果的に誤動作を検出することができる。様々なタスクやモデルにわたる広範囲な実験により、正常な行動と不行動の間の因果分布の明確な区別が明らかとなり、様々な不行動検出タスクのための正確で軽量な検出器の開発を可能にした。

関連論文リスト

A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
Exploring LLM-based Frameworks for Fault Diagnosis [2.2562573557834686]
大規模言語モデル(LLM)に基づくシステムは,センサリッチ産業環境における自律型健康モニタリングの新たな機会を提供する。本研究では,LLMがセンサデータから直接障害を検出し,分類すると同時に,自然言語の推論を通じて本質的に説明可能なアウトプットを生成する可能性について検討する。
論文参考訳（メタデータ） (2025-09-27T04:53:15Z)
Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文参考訳（メタデータ） (2024-12-13T16:14:49Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks [12.893445918647842]
大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。
論文参考訳（メタデータ） (2024-09-12T14:42:08Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection [34.40206965758026]
時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定することで、様々な産業において重要な役割を果たす。従来のTSADモデルは、しばしばディープラーニングに依存しており、広範なトレーニングデータを必要とし、ブラックボックスとして動作する。 LLMADは,Large Language Models (LLMs) を用いて,高精度かつ解釈可能なTSAD結果を提供する新しいTSAD手法である。
論文参考訳（メタデータ） (2024-05-24T09:07:02Z)
Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。 LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文参考訳（メタデータ） (2024-02-27T07:02:10Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。