Fugu-MT 論文翻訳(概要): Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents

論文の概要: Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents

arxiv url: http://arxiv.org/abs/2402.11651v1
Date: Sun, 18 Feb 2024 17:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:59:03.239031
Title: Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents
Title（参考訳）: 失敗から学ぶ: 大きな言語モデルをエージェントとして微調整するとき、否定的な例を統合する
Authors: Renxi Wang, Haonan Li, Xudong Han, Yixuan Zhang, Timothy Baldwin
Abstract要約: 大規模言語モデル(LLM)は、検索エンジンのようなツールを介して環境と対話するエージェントとして機能することに成功した。 LLMは、トレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。
参考スコア（独自算出の注目度）: 44.13904794106225
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have achieved success in acting as agents, which interact with environments through tools like search engines. However, LLMs are not optimized specifically for tool use during training or alignment, limiting their effectiveness as agents. To resolve this problem, previous work has collected interaction trajectories between GPT-4 and environments, and fine-tuned smaller models with them. As part of this, the standard approach has been to simply discard trajectories that do not finish the task successfully, which, on the one hand, leads to a significant waste of data and resources, and on the other hand, has the potential to limit the possible optimization paths during fine-tuning. In this paper, we contend that large language models can learn from failures through appropriate data cleaning and fine-tuning strategies. We conduct experiments on mathematical reasoning, multi-hop question answering, and strategic question answering tasks. Experimental results demonstrate that compared to solely using positive examples, incorporating negative examples enhances model performance by a large margin.
Abstract（参考訳）: 大規模言語モデル(llm)は、検索エンジンのようなツールを通じて環境と対話するエージェントとして機能することに成功した。しかし、LSMはトレーニングやアライメントにおいてツールの使用に特化せず、エージェントとしての有効性を制限している。この問題を解決するために、従来の研究はGPT-4と環境の間の相互作用軌跡を収集し、それらを微調整した小さなモデルを開発した。これの一環として、標準的なアプローチでは、タスクを正常に終了しないトラジェクトリを単に破棄し、一方、データやリソースのかなりの無駄を招き、他方、微調整時に可能な最適化パスを制限する可能性がある。本稿では,大規模な言語モデルが適切なデータクリーニングと微調整戦略によって失敗から学習できることを論じる。数学的推論,マルチホップ質問応答,戦略的質問応答タスクについて実験を行う。実験結果から, 正の例のみを用いた場合と比較して, 負の例を取り入れた場合, モデル性能が大きく向上することが示された。

関連論文リスト

LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。 LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文参考訳（メタデータ） (2025-05-28T04:30:51Z)
STeCa: Step-level Trajectory Calibration for LLM Agent Learning [9.678098205818566]
大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。 LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
論文参考訳（メタデータ） (2025-02-20T05:28:44Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。 API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文参考訳（メタデータ） (2024-11-29T08:47:04Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
Pedagogical Alignment of Large Language Models [24.427653091950994]
大規模言語モデル(LLM)は、問題解決プロセスを通じて生徒を導くのではなく、即座に答えを提供する。本稿では,このアライメント目的を達成するために,LHP(Learning from Human Preferences)アルゴリズムについて検討する。
論文参考訳（メタデータ） (2024-02-07T16:15:59Z)
Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。 LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文参考訳（メタデータ） (2023-10-30T14:54:15Z)
Contrastive Trajectory Similarity Learning with Dual-Feature Attention [24.445998309807965]
トレイ類似度尺度は、トラジェクトリデータベースにおけるクエリ述語として機能する。そこで本研究では,TrajCLという学習に基づくトラジェクトリモデリング手法を提案する。 TrajCLは、最先端の軌跡類似度測定よりも一貫して、はるかに正確で高速である。
論文参考訳（メタデータ） (2022-10-11T05:25:14Z)
TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文参考訳（メタデータ） (2021-10-27T21:05:00Z)
Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文参考訳（メタデータ） (2021-09-14T17:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。