論文の概要: RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large
Language Models in Tool Learning
- arxiv url: http://arxiv.org/abs/2401.08326v2
- Date: Fri, 19 Jan 2024 08:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:06:10.963412
- Title: RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large
Language Models in Tool Learning
- Title(参考訳): rotbench: ツール学習における大規模言語モデルのロバスト性評価のための多レベルベンチマーク
- Authors: Junjie Ye, Yilong Wu, Songyang Gao, Caishuang Huang, Sixian Li, Guanyu
Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang
- Abstract要約: ツール学習における大規模言語モデルの堅牢性を評価するためのベンチマークであるRoTBenchを紹介する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるための緊急の必要性を浮き彫りにした。
ツール学習におけるLDMの堅牢性を高めるために,学習環境の多様性を充実させる戦略であるRoTTuningを提案する。
- 参考スコア(独自算出の注目度): 46.90486813383147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool learning has generated widespread interest as a vital means of
interaction between Large Language Models (LLMs) and the physical world.
Current research predominantly emphasizes LLMs' capacity to utilize tools in
well-structured environments while overlooking their stability when confronted
with the inevitable noise of the real world. To bridge this gap, we introduce
RoTBench, a multi-level benchmark for evaluating the robustness of LLMs in tool
learning. Specifically, we establish five external environments, each featuring
varying levels of noise (i.e., Clean, Slight, Medium, Heavy, and Union),
providing an in-depth analysis of the model's resilience across three critical
phases: tool selection, parameter identification, and content filling.
Experiments involving six widely-used models underscore the urgent necessity
for enhancing the robustness of LLMs in tool learning. For instance, the
performance of GPT-4 even drops significantly from 80.00 to 58.10 when there is
no substantial change in manual accuracy. More surprisingly, the noise
correction capability inherent in the GPT family paradoxically impedes its
adaptability in the face of mild noise. In light of these findings, we propose
RoTTuning, a strategy that enriches the diversity of training environments to
bolster the robustness of LLMs in tool learning. The code and data are
available at https://github.com/Junjie-Ye/RoTBench.
- Abstract(参考訳): ツール学習は、大規模言語モデル(llm)と物理世界の相互作用の重要な手段として、広く関心を集めている。
現在の研究は、LLMが環境が整った環境でツールを利用する能力を強調しつつ、現実の不可避な騒音に直面した際の安定性を見落としている。
このギャップを埋めるために,ツール学習におけるLLMの堅牢性を評価するマルチレベルベンチマークであるRoTBenchを導入する。
具体的には、さまざまなレベルのノイズ(クリーン、マイム、ミディアム、ヘビー、ユニオン)を特徴とする5つの外部環境を確立し、ツール選択、パラメータ識別、コンテンツ充填という3つの重要なフェーズにわたるモデルのレジリエンスの詳細な分析を提供する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるために必要不可欠であることを示す。
例えば、gpt-4の性能は、手作業の精度に実質的な変化がない場合、80.00から58.10に大幅に低下する。
さらに驚くべきことに、GPTファミリー固有のノイズ補正機能は、軽度のノイズに直面した場合の適応性をパラドックス的に阻害する。
これらの知見を踏まえて,ツール学習におけるLDMの堅牢性を高めるためのトレーニング環境の多様性を高める戦略であるRoTTuningを提案する。
コードとデータはhttps://github.com/junjie-ye/rotbenchで入手できる。
関連論文リスト
- From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。
複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール変数に対する大規模言語モデル(LLM)の適応性と反射性を向上するツールEVOを提案する。
Monte Carlo Tree Searchを活用することで、ToolEVOは動的環境におけるLLMの積極的な探索と相互作用を促進する。
また、ツール変数の影響を評価するために特別に設計されたベンチマークであるToolQA-Dを紹介する。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。
今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文 参考訳(メタデータ) (2024-07-03T11:06:05Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of
Large Language Models in Real-world Scenarios [48.38419686697733]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。
このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。
ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文 参考訳(メタデータ) (2024-01-01T12:49:36Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。