論文の概要: Malicious Repurposing of Open Science Artefacts by Using Large Language Models
- arxiv url: http://arxiv.org/abs/2601.18998v1
- Date: Mon, 26 Jan 2026 22:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.084003
- Title: Malicious Repurposing of Open Science Artefacts by Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたオープンサイエンスアーティファクトの有害再資源化
- Authors: Zahra Hashemi, Zhiqiang Zhong, Jun Pang, Wei Zhao,
- Abstract要約: 倫理的に設計されたオープンアーティファクトを再利用することで,大規模言語モデルが有害な提案を生成できることを示す。
以上の結果から,LLMは倫理的に設計されたオープンアーティファクトを再利用することで,有害な提案を生成できることが示唆された。
しかし,評価者として働くLCMは評価結果について強く意見が一致しないことがわかった。
- 参考スコア(独自算出の注目度): 15.553448471983783
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid evolution of large language models (LLMs) has fuelled enthusiasm about their role in advancing scientific discovery, with studies exploring LLMs that autonomously generate and evaluate novel research ideas. However, little attention has been given to the possibility that such models could be exploited to produce harmful research by repurposing open science artefacts for malicious ends. We fill the gap by introducing an end-to-end pipeline that first bypasses LLM safeguards through persuasion-based jailbreaking, then reinterprets NLP papers to identify and repurpose their artefacts (datasets, methods, and tools) by exploiting their vulnerabilities, and finally assesses the safety of these proposals using our evaluation framework across three dimensions: harmfulness, feasibility of misuse, and soundness of technicality. Overall, our findings demonstrate that LLMs can generate harmful proposals by repurposing ethically designed open artefacts; however, we find that LLMs acting as evaluators strongly disagree with one another on evaluation outcomes: GPT-4.1 assigns higher scores (indicating greater potential harms, higher soundness and feasibility of misuse), Gemini-2.5-pro is markedly stricter, and Grok-3 falls between these extremes. This indicates that LLMs cannot yet serve as reliable judges in a malicious evaluation setup, making human evaluation essential for credible dual-use risk assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、科学的な発見を促進する上での彼らの役割に対する熱意を喚起し、新しい研究のアイデアを自律的に生成し評価するLSMを探索する研究を行った。
しかし、そのようなモデルが悪質な目的のためにオープンサイエンスアーティファクトを再利用することで有害な研究を生み出すことができる可能性については、ほとんど注目されていない。
私たちは、まず説得ベースのジェイルブレイクを通じてLCMの安全ガードを回避し、次にNLP論文を再解釈して、その脆弱性を悪用してその成果物(データセット、メソッド、ツール)を特定し、再利用し、最終的にこれらの提案の安全性を、有害性、誤用の可能性、技術的健全性という3つの側面で評価する、エンドツーエンドのパイプラインを導入することでギャップを埋めます。
GPT-4.1は高いスコアを割り当て(より大きな潜在的な害、高い音性、そして誤用の可能性を示す)、Gemini-2.5-proは著しく厳格であり、Grok-3はこれらの極端間に落下する。
このことは、LSMが悪意のある評価設定において信頼性の高い審査員として機能しておらず、信頼性の高い二重利用リスク評価に人間による評価が不可欠であることを示唆している。
関連論文リスト
- Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity [20.510512358961517]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。
これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文 参考訳(メタデータ) (2023-11-30T14:18:47Z) - Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models [15.735715641327836]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。
本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。
我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文 参考訳(メタデータ) (2023-07-16T08:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。