論文の概要: Evaluating Proactive Risk Awareness of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20976v1
- Date: Tue, 24 Feb 2026 15:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.800091
- Title: Evaluating Proactive Risk Awareness of Large Language Models
- Title(参考訳): 大規模言語モデルの確率的リスク認識の評価
- Authors: Xuan Luo, Yubin Chen, Zhiyu Hou, Linpu Yu, Geng Tu, Jing Li, Ruifeng Xu,
- Abstract要約: 本稿では,大規模言語モデルが潜在的損害を予測できるかどうかを判断し,被害発生前に警告を与える,積極的なリスク認識評価フレームワークを提案する。
本研究では,バタフライデータセットを構築し,環境・生態分野におけるこの枠組みのインスタンス化を行う。
- 参考スコア(独自算出の注目度): 30.312744244385822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly embedded in everyday decision-making, their safety responsibilities extend beyond reacting to explicit harmful intent toward anticipating unintended but consequential risks. In this work, we introduce a proactive risk awareness evaluation framework that measures whether LLMs can anticipate potential harms and provide warnings before damage occurs. We construct the Butterfly dataset to instantiate this framework in the environmental and ecological domain. It contains 1,094 queries that simulate ordinary solution-seeking activities whose responses may induce latent ecological impact. Through experiments across five widely used LLMs, we analyze the effects of response length, languages, and modality. Experimental results reveal consistent, significant declines in proactive awareness under length-restricted responses, cross-lingual similarities, and persistent blind spots in (multimodal) species protection. These findings highlight a critical gap between current safety alignment and the requirements of real-world ecological responsibility, underscoring the need for proactive safeguards in LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が日々の意思決定に組み込まれているため、その安全性の責任は意図しないが従順なリスクを予想する露骨な有害な意図への反応以上のものとなる。
本研究では, LLMが潜在的な害を予知できるかどうかを計測し, 被害発生前に警告を行う, 積極的なリスク認識評価フレームワークを提案する。
本研究では,バタフライデータセットを構築し,環境・生態分野におけるこの枠組みのインスタンス化を行う。
これには1094のクエリが含まれており、応答が潜伏する生態学的影響を引き起こす可能性のある通常のソリューション探索アクティビティをシミュレートしている。
広く使われている5つのLLMの実験を通して、応答長、言語、モダリティの影響を分析した。
実験結果から, 長期制限応答, 言語間類似性, および(マルチモーダル)種保護における持続的盲点下での持続的, 有意な活動的意識低下が認められた。
これらの結果は、現在の安全アライメントと現実世界の生態的責任の要件の間に重要なギャップを浮き彫りにしており、LCMの展開において積極的に安全を守る必要性を浮き彫りにしている。
関連論文リスト
- When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life [36.244977974241245]
本研究では,マルチモーダル大規模言語モデル(MLLM)が日常生活における人間の行動に与える影響を調査・評価する。
実世界の画像テキストサンプル2,013点を含むマルチモーダル安全ベンチマークSaLADを紹介する。
18のMLLMの結果、最高性能のモデルは安全でないクエリで57.2%しか応答しないことがわかった。
論文 参考訳(メタデータ) (2026-01-07T15:59:07Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy [31.839815402460918]
大規模言語モデル(LLM)は、多くの現実世界のアプリケーションをサポートする大きな可能性を秘めている。
プライバシー漏洩のリスク、幻覚的なアウトプット、そして価値のミスアライメントといった点で、彼らは依然として重大な課題に直面している。
論文 参考訳(メタデータ) (2025-01-16T09:59:45Z) - Risk-Averse Finetuning of Large Language Models [15.147772383812313]
本稿では,有害なアウトプットの発生を最小限に抑えるため,リスク回避の原則をLarge Language Models (LLMs) に組み込むことを提案する。
感情修正と毒性軽減タスクの実証評価は、人間のフィードバックによるリスク-逆強化学習の有効性を示す。
論文 参考訳(メタデータ) (2025-01-12T19:48:21Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。