論文の概要: Evaluating the Sensitivity of LLMs to Harmful Contents in Long Input
- arxiv url: http://arxiv.org/abs/2510.05864v1
- Date: Tue, 07 Oct 2025 12:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.248263
- Title: Evaluating the Sensitivity of LLMs to Harmful Contents in Long Input
- Title(参考訳): 長期入力におけるLLMの有害内容に対する感度評価
- Authors: Faeze Ghorbanpour, Alexander Fraser,
- Abstract要約: 大規模言語モデル (LLM) は、文書処理から検索拡張生成まで、拡張コンテキストに依存したアプリケーションをサポートするようになった。
我々は,LLMの有害な内容に対する感受性を,拡張されたコンテキスト,異なるタイプ(明示的対暗黙的),位置(傾向,中間,端),有病率(プロンプトの0.01~0.50),文脈長(600~6000トークン)で評価した。
我々は同様のパターンを観察する: 適度な有害な有病率(0.25)でパフォーマンスピークがピークに達するが、内容が非常に疎い場合や支配的な場合の減少、文脈長の増大に伴うリコールの減少、初期有害な文は一般的により確実に検出され、明示的な内容は暗黙よりも一貫して認識される。
- 参考スコア(独自算出の注目度): 53.19281984086319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly support applications that rely on extended context, from document processing to retrieval-augmented generation. While their long-context capabilities are well studied for reasoning and retrieval, little is known about their behavior in safety-critical scenarios. We evaluate LLMs' sensitivity to harmful content under extended context, varying type (explicit vs. implicit), position (beginning, middle, end), prevalence (0.01-0.50 of the prompt), and context length (600-6000 tokens). Across harmful content categories such as toxic, offensive, and hate speech, with LLaMA-3, Qwen-2.5, and Mistral, we observe similar patterns: performance peaks at moderate harmful prevalence (0.25) but declines when content is very sparse or dominant; recall decreases with increasing context length; harmful sentences at the beginning are generally detected more reliably; and explicit content is more consistently recognized than implicit. These findings provide the first systematic view of how LLMs prioritize and calibrate harmful content in long contexts, highlighting both their emerging strengths and the challenges that remain for safety-critical use.
- Abstract(参考訳): 大規模言語モデル (LLM) は、文書処理から検索拡張生成まで、拡張コンテキストに依存したアプリケーションをサポートするようになった。
長いコンテキストの能力は推論や検索のためによく研究されているが、安全クリティカルなシナリオにおける行動についてはほとんど知られていない。
我々は,LLMの有害な内容に対する感受性を,拡張されたコンテキスト,異なるタイプ(明示的対暗黙的),位置(傾向,中間,端),有病率(プロンプトの0.01~0.50),文脈長(600~6000トークン)で評価した。
LLaMA-3, Qwen-2.5, Mistral などの有害な内容のカテゴリーでも同様のパターンを観察した: 適度な有害な有病率 (0.25) でパフォーマンスピークが生じるが, 内容が希少な場合や支配的な場合の減少, 文脈長の増大に伴うリコールの減少, 当初有害な文の発見がより確実に行われ, 明示的な内容が暗黙的よりも一貫して認識される。
これらの知見は、LLMが長期の文脈において有害なコンテンツを優先順位付けし、校正する方法の体系的な見解を初めて示し、その出現する強みと、安全クリティカルな使用のために残る課題の両方を強調した。
関連論文リスト
- Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - What's Taboo for You? - An Empirical Evaluation of LLMs Behavior Toward Sensitive Content [1.6492989697868894]
本研究は, GPT-4o-miniの暗黙的モデレーション挙動を, センシティブな内容のパラフレーズ化時に実験的に解析した。
実験の結果, GPT-4o-miniは, 内容が低感度なクラスに対して系統的に中和され, 脱語やタブー語が大幅に減少することが示唆された。
論文 参考訳(メタデータ) (2025-07-31T08:02:04Z) - Probing Association Biases in LLM Moderation Over-Sensitivity [42.191744175730726]
大規模言語モデルは、コンテンツモデレーションに広く使用されるが、しばしば良心的なコメントを有毒と誤分類する。
トピック・アソシエーション・アナリティクス(トピック・アソシエーション・アナリティクス)は,LLMが特定のトピックと毒性をどう関連づけるかを定量化するセマンティック・レベルのアプローチである。
より高度なモデル(例えば、GPT-4 Turbo)は、全体的な偽陽性率が低いにもかかわらず、より強力なトピックステレオタイプを示す。
論文 参考訳(メタデータ) (2025-05-29T18:07:48Z) - What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs [19.604065692511416]
我々はMulti-Shot Jailbreaking(MSJ)によるLarge Language Models(LLM)の長文脆弱性について検討する。
実験では,最大128Kトークンのコンテキスト長を利用する。
攻撃を成功させるには、慎重に有害なコンテンツを作成する必要はない。
論文 参考訳(メタデータ) (2025-05-26T09:57:25Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。