論文の概要: RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning
- arxiv url: http://arxiv.org/abs/2401.08326v3
- Date: Sat, 21 Sep 2024 08:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:17:12.059145
- Title: RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning
- Title(参考訳): RoTBench: ツール学習における大規模言語モデルのロバスト性を評価するためのマルチレベルベンチマーク
- Authors: Junjie Ye, Yilong Wu, Songyang Gao, Caishuang Huang, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang,
- Abstract要約: ツール学習における大規模言語モデルの堅牢性を評価するためのベンチマークであるRoTBenchを紹介する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるための緊急の必要性を浮き彫りにした。
ツール学習におけるLDMの堅牢性を高めるために,学習環境の多様性を充実させる戦略であるRoTTuningを提案する。
- 参考スコア(独自算出の注目度): 45.39445027132887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool learning has generated widespread interest as a vital means of interaction between Large Language Models (LLMs) and the physical world. Current research predominantly emphasizes LLMs' capacity to utilize tools in well-structured environments while overlooking their stability when confronted with the inevitable noise of the real world. To bridge this gap, we introduce RoTBench, a multi-level benchmark for evaluating the robustness of LLMs in tool learning. Specifically, we establish five external environments, each featuring varying levels of noise (i.e., Clean, Slight, Medium, Heavy, and Union), providing an in-depth analysis of the model's resilience across three critical phases: tool selection, parameter identification, and content filling. Experiments involving six widely-used models underscore the urgent necessity for enhancing the robustness of LLMs in tool learning. For instance, the performance of GPT-4 even drops significantly from 80.00 to 58.10 when there is no substantial change in manual accuracy. More surprisingly, the noise correction capability inherent in the GPT family paradoxically impedes its adaptability in the face of mild noise. In light of these findings, we propose RoTTuning, a strategy that enriches the diversity of training environments to bolster the robustness of LLMs in tool learning. The code and data are available at https://github.com/Junjie-Ye/RoTBench.
- Abstract(参考訳): ツール学習は、大規模言語モデル(LLM)と物理世界との相互作用の重要な手段として、広く関心を集めている。
現在の研究は、LLMが環境が整った環境でツールを利用する能力を強調しつつ、現実の必然的な騒音に直面した際の安定性を見落としている。
このギャップを埋めるために,ツール学習におけるLLMの堅牢性を評価するマルチレベルベンチマークであるRoTBenchを導入する。
具体的には、さまざまなレベルのノイズ(クリーン、ライト、ミディアム、ヘビー、ユニオン)を特徴とする5つの外部環境を構築し、ツール選択、パラメータ識別、コンテンツ充足という3つの重要なフェーズにわたるモデルのレジリエンスを詳細に分析する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるための緊急の必要性を浮き彫りにした。
例えば、GPT-4の性能は80.00から58.10に大幅に低下する。
さらに驚くべきことに、GPTファミリー固有のノイズ補正機能は、軽度のノイズに直面した場合の適応性をパラドックス的に阻害する。
これらの知見を踏まえて,ツール学習におけるLDMの堅牢性を高めるために,学習環境の多様性を高める戦略であるRoTTuningを提案する。
コードとデータはhttps://github.com/Junjie-Ye/RoTBench.comで公開されている。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - On Adversarial Robustness of Language Models in Transfer Learning [13.363850350446869]
転送学習は、標準的なパフォーマンス指標を改善する一方で、敵攻撃に対する脆弱性の増加につながることがよく示される。
以上の結果から, モデルサイズ, アーキテクチャ, 適応手法の複雑な相互作用が示唆された。
論文 参考訳(メタデータ) (2024-12-29T15:55:35Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。
複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。
ToolEVOは、ツールの可変性に対するLLMの適応性と反射性を高めるために設計された、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。
今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文 参考訳(メタデータ) (2024-07-03T11:06:05Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。