Fugu-MT 論文翻訳(概要): RRTL: Red Teaming Reasoning Large Language Models in Tool Learning

論文の概要: RRTL: Red Teaming Reasoning Large Language Models in Tool Learning

arxiv url: http://arxiv.org/abs/2505.17106v1
Date: Wed, 21 May 2025 10:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.569742
Title: RRTL: Red Teaming Reasoning Large Language Models in Tool Learning
Title（参考訳）: RRTL: ツール学習における大規模言語モデルの再検討
Authors: Yifei Liu, Yu Cui, Haibin Zhang,
Abstract要約: ツール学習の文脈における新たな推論LPM(RLLMs)の安全性はいまだ検討されていない。ツール学習におけるRLLMの評価に特化して設計された赤いチーム化手法RRTLを提案する。主要な7つのRLLMについて総合的な評価を行い,3つの重要な知見を明らかにした。
参考スコア（独自算出の注目度）: 8.547055998769476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While tool learning significantly enhances the capabilities of large language models (LLMs), it also introduces substantial security risks. Prior research has revealed various vulnerabilities in traditional LLMs during tool learning. However, the safety of newly emerging reasoning LLMs (RLLMs), such as DeepSeek-R1, in the context of tool learning remains underexplored. To bridge this gap, we propose RRTL, a red teaming approach specifically designed to evaluate RLLMs in tool learning. It integrates two novel strategies: (1) the identification of deceptive threats, which evaluates the model's behavior in concealing the usage of unsafe tools and their potential risks; and (2) the use of Chain-of-Thought (CoT) prompting to force tool invocation. Our approach also includes a benchmark for traditional LLMs. We conduct a comprehensive evaluation on seven mainstream RLLMs and uncover three key findings: (1) RLLMs generally achieve stronger safety performance than traditional LLMs, yet substantial safety disparities persist across models; (2) RLLMs can pose serious deceptive risks by frequently failing to disclose tool usage and to warn users of potential tool output risks; (3) CoT prompting reveals multi-lingual safety vulnerabilities in RLLMs. Our work provides important insights into enhancing the security of RLLMs in tool learning.
Abstract（参考訳）: ツール学習は、大きな言語モデル(LLM)の機能を大幅に強化する一方で、重大なセキュリティリスクももたらします。以前の研究では、ツール学習中に従来のLLMのさまざまな脆弱性が明らかになった。しかし、DeepSeek-R1のような新たな推論LDM(RLLMs)の安全性は、ツール学習の文脈では未解明のままである。このギャップを埋めるために、ツール学習においてRLLMを評価するために特別に設計された赤いチーム化手法RRTLを提案する。本研究は,(1)非安全ツールの使用と潜在的なリスクを隠蔽するモデル行動を評価する偽装脅威の識別,(2)ツールの実行を強制するチェーン・オブ・フォールト(CoT)の使用,の2つの新しい戦略を統合する。我々のアプローチには、従来のLLMのベンチマークも含まれている。我々は7つの主要なRLLMを総合的に評価し,(1)RLLMは従来のLLMよりも高い安全性性能を達成するが,モデル間での実質的な安全性の相違は持続する,(2)RLLMはツール使用の開示に失敗し,潜在的なツール出力リスクをユーザに警告する,(3)CoTプロンプトはRLLMの多言語安全上の脆弱性を明らかにする,という3つの重要な結果を明らかにする。我々の研究は、ツール学習におけるRLLMのセキュリティ向上に関する重要な洞察を提供する。

関連論文リスト

R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-12-23T14:36:37Z)
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [15.318301783084681]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。本稿では,RAG(Retrieval-Augmented Generation)技術に基づく軽量なアンラーニングフレームワークを提案する。われわれはChatGPT, Gemini, Llama-2-7b-chat-hf, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じてフレームワークを評価する。
論文参考訳（メタデータ） (2024-10-20T03:51:01Z)
Cognitive Overload Attack:Prompt Injection for Long Context [39.61095361609769]
大規模言語モデル(LLM)は、明示的な再訓練を必要とせずにタスクを実行する際、顕著な能力を示した。この機能は、ICL(In-Context Learning)と呼ばれ、安全訓練されたLLMを操作して望ましくないあるいは有害な出力を生成する敵のプロンプトやジェイルブレイクにLLMを公開する。我々は、認知負荷理論の原則をLLMに適用し、人間の認知と同様、LLMも認知負荷に悩まされていることを実証的に検証する。 GPT-4, Claude-3.5 Sonnet, Claude-3 OPUS, Llama-3-70B-Instruct, Gemini-1.0-Pro などの高度なモデルを示す。
論文参考訳（メタデータ） (2024-10-15T04:53:34Z)
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。 LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文参考訳（メタデータ） (2024-05-24T14:59:19Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)
ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages [45.16862486631841]
ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。このギャップを埋めるために、ツール学習においてLLMに関連する安全性問題を調べるための包括的なフレームワークである*ToolSword*を紹介します。
論文参考訳（メタデータ） (2024-02-16T15:19:46Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。