Fugu-MT 論文翻訳(概要): ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages

論文の概要: ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages

arxiv url: http://arxiv.org/abs/2402.10753v1
Date: Fri, 16 Feb 2024 15:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 15:41:50.782640
Title: ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages
Title（参考訳）: ToolSword:3段階にわたるツール学習における大規模言語モデルの安全性問題
Authors: Junjie Ye, Sixian Li, Guanyu Li, Caishuang Huang, Songyang Gao, Yilong Wu, Qi Zhang, Tao Gui, Xuanjing Huang
Abstract要約: ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。 $ToolSword$は、ツール学習におけるLLMに関連する安全性の問題を調べるためのフレームワークである。 11のオープンソースおよびクローズドソース LLM で実施された実験は、ツール学習における永続的な安全性上の課題を明らかにしている。
参考スコア（独自算出の注目度）: 46.86723087688694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool learning is widely acknowledged as a foundational approach or deploying large language models (LLMs) in real-world scenarios. While current research primarily emphasizes leveraging tools to augment LLMs, it frequently neglects emerging safety considerations tied to their application. To fill this gap, we present $ToolSword$, a comprehensive framework dedicated to meticulously investigating safety issues linked to LLMs in tool learning. Specifically, ToolSword delineates six safety scenarios for LLMs in tool learning, encompassing $malicious$ $queries$ and $jailbreak$ $attacks$ in the input stage, $noisy$ $misdirection$ and $risky$ $cues$ in the execution stage, and $harmful$ $feedback$ and $error$ $conflicts$ in the output stage. Experiments conducted on 11 open-source and closed-source LLMs reveal enduring safety challenges in tool learning, such as handling harmful queries, employing risky tools, and delivering detrimental feedback, which even GPT-4 is susceptible to. Moreover, we conduct further studies with the aim of fostering research on tool learning safety. The data is released in https://github.com/Junjie-Ye/ToolSword.
Abstract（参考訳）: ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。現在の研究は、主にLDMの強化にツールを活用することを強調するが、アプリケーションに関連する新たな安全上の配慮を無視することが多い。このギャップを埋めるために、ツール学習におけるLLMに関連する安全性問題を慎重に調査するための包括的なフレームワークである$ToolSword$を紹介します。具体的には、ツール学習におけるllmの6つの安全性シナリオを記述している。入力ステージに$malicious$ $queries$と$jailbreak$$$acks$、実行ステージに$noisy$$$misdirection$と$risky$$cues$、出力ステージに$harmful$$$$feedback$と$error$$$$conflicts$である。 11のオープンソースおよびクローズドソースllmで実施された実験では、有害なクエリの処理、危険なツールの活用、有害なフィードバックの提供など、ツール学習における永続的な安全性の課題が明らかになった。さらに,ツール学習の安全性に関する研究を促進するために,さらなる研究を行う。データはhttps://github.com/junjie-ye/toolswordでリリースされる。

関連論文リスト

Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety [18.43622753923107]
大規模言語モデル(LLM)は、より広い現実世界での使用、安全でない振る舞いの理解と緩和が不可欠である。我々は,このギャップを埋める最初の調査を行い,安全性を重視した解釈手法と,それらに通知する安全性向上と,それらを運用するツールを結合する統一的なフレームワークを紹介した。
論文参考訳（メタデータ） (2025-06-05T17:56:05Z)
RRTL: Red Teaming Reasoning Large Language Models in Tool Learning [8.547055998769476]
ツール学習の文脈における新たな推論LPM(RLLMs)の安全性はいまだ検討されていない。ツール学習におけるRLLMの評価に特化して設計された赤いチーム化手法RRTLを提案する。主要な7つのRLLMについて総合的な評価を行い,3つの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-05-21T10:21:19Z)
Tool Unlearning for Tool-Augmented LLMs [14.755831733659699]
ツール強化された大規模言語モデル(LLM)は、クエリとレスポンスのペアのデータセットに基づいてトレーニングされることが多い。 ToolDeleteは、ツール拡張LDMからの未学習ツールの最初のアプローチである。
論文参考訳（メタデータ） (2025-02-03T05:50:55Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (2024-05-28T08:01:26Z)
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。 LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文参考訳（メタデータ） (2024-05-24T14:59:19Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios [48.38419686697733]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。 ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文参考訳（メタデータ） (2024-01-01T12:49:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。