論文の概要: Evaluating Proactive Risk Awareness of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20976v1
- Date: Tue, 24 Feb 2026 15:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.800091
- Title: Evaluating Proactive Risk Awareness of Large Language Models
- Title(参考訳): 大規模言語モデルの確率的リスク認識の評価
- Authors: Xuan Luo, Yubin Chen, Zhiyu Hou, Linpu Yu, Geng Tu, Jing Li, Ruifeng Xu,
- Abstract要約: 本稿では,大規模言語モデルが潜在的損害を予測できるかどうかを判断し,被害発生前に警告を与える,積極的なリスク認識評価フレームワークを提案する。
本研究では,バタフライデータセットを構築し,環境・生態分野におけるこの枠組みのインスタンス化を行う。
- 参考スコア(独自算出の注目度): 30.312744244385822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly embedded in everyday decision-making, their safety responsibilities extend beyond reacting to explicit harmful intent toward anticipating unintended but consequential risks. In this work, we introduce a proactive risk awareness evaluation framework that measures whether LLMs can anticipate potential harms and provide warnings before damage occurs. We construct the Butterfly dataset to instantiate this framework in the environmental and ecological domain. It contains 1,094 queries that simulate ordinary solution-seeking activities whose responses may induce latent ecological impact. Through experiments across five widely used LLMs, we analyze the effects of response length, languages, and modality. Experimental results reveal consistent, significant declines in proactive awareness under length-restricted responses, cross-lingual similarities, and persistent blind spots in (multimodal) species protection. These findings highlight a critical gap between current safety alignment and the requirements of real-world ecological responsibility, underscoring the need for proactive safeguards in LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が日々の意思決定に組み込まれているため、その安全性の責任は意図しないが従順なリスクを予想する露骨な有害な意図への反応以上のものとなる。
本研究では, LLMが潜在的な害を予知できるかどうかを計測し, 被害発生前に警告を行う, 積極的なリスク認識評価フレームワークを提案する。
本研究では,バタフライデータセットを構築し,環境・生態分野におけるこの枠組みのインスタンス化を行う。
これには1094のクエリが含まれており、応答が潜伏する生態学的影響を引き起こす可能性のある通常のソリューション探索アクティビティをシミュレートしている。
広く使われている5つのLLMの実験を通して、応答長、言語、モダリティの影響を分析した。
実験結果から, 長期制限応答, 言語間類似性, および(マルチモーダル)種保護における持続的盲点下での持続的, 有意な活動的意識低下が認められた。
これらの結果は、現在の安全アライメントと現実世界の生態的責任の要件の間に重要なギャップを浮き彫りにしており、LCMの展開において積極的に安全を守る必要性を浮き彫りにしている。
関連論文リスト
- When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life [36.244977974241245]
本研究では,マルチモーダル大規模言語モデル(MLLM)が日常生活における人間の行動に与える影響を調査・評価する。
実世界の画像テキストサンプル2,013点を含むマルチモーダル安全ベンチマークSaLADを紹介する。
18のMLLMの結果、最高性能のモデルは安全でないクエリで57.2%しか応答しないことがわかった。
論文 参考訳(メタデータ) (2026-01-07T15:59:07Z) - MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy [31.839815402460918]
大規模言語モデル(LLM)は、多くの現実世界のアプリケーションをサポートする大きな可能性を秘めている。
プライバシー漏洩のリスク、幻覚的なアウトプット、そして価値のミスアライメントといった点で、彼らは依然として重大な課題に直面している。
論文 参考訳(メタデータ) (2025-01-16T09:59:45Z) - Risk-Averse Finetuning of Large Language Models [15.147772383812313]
本稿では,有害なアウトプットの発生を最小限に抑えるため,リスク回避の原則をLarge Language Models (LLMs) に組み込むことを提案する。
感情修正と毒性軽減タスクの実証評価は、人間のフィードバックによるリスク-逆強化学習の有効性を示す。
論文 参考訳(メタデータ) (2025-01-12T19:48:21Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。