Fugu-MT 論文翻訳(概要): Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback

論文の概要: Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback

arxiv url: http://arxiv.org/abs/2410.05434v1
Date: Mon, 7 Oct 2024 18:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 18:47:31.600489
Title: Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback
Title（参考訳）: 教師より優れた:AIの原始フィードバックから学ぶLLMエージェント
Authors: Sanjiban Choudhury, Paloma Sodhi,
Abstract要約: 大きな言語モデル(LLM)は印象的な意思決定能力を示している。現在のメソッドでは、タスク実行中にエラーから自動的に自己改善するメカニズムが欠如している。我々は,AIの専門家教師からのフィードバックを用いて,LLMエージェントを継続的に改善する反復的微調整フレームワークLEAPを提案する。
参考スコア（独自算出の注目度）: 12.61197377492141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) show impressive decision-making abilities, current methods lack a mechanism for automatic self-improvement from errors during task execution. We propose LEAP, an iterative fine-tuning framework that continually improves LLM agents using feedback from AI expert teachers. Our key insight is to equip the expert teachers with a privileged state -- information that is available during training but hidden at test time. This allows even weak experts to provide precise guidance, significantly improving the student agent's performance without access to privileged information at test time. We evaluate LEAP on diverse decision-making benchmarks, including text-based games (ALFWorld), web navigation (WebShop), and interactive coding (Intercode Bash). Our experiments show that LEAP (1) outperforms behavior cloning and ReAct baselines (2) enables weak student models (e.g., Llama3-8B) to exceed the performance of strong teacher models (GPT4-o), and (3) allows weak models to self-improve using privileged versions of themselves. We also provide a theoretical analysis showing that LEAP's success hinges on balancing privileged information with the student's realizability, which we empirically validate. Our code is available at https://leap-llm.github.io
Abstract（参考訳）: 大規模言語モデル(LLM)は優れた意思決定能力を示すが、現在の手法ではタスク実行中にエラーから自動的に自己改善するメカニズムが欠如している。我々は,AIの専門家教師からのフィードバックを用いて,LLMエージェントを継続的に改善する反復的微調整フレームワークLEAPを提案する。私たちの重要な洞察は、専門家の教師に特権のある状態 – トレーニング時に利用できるが、テスト時に隠蔽される情報 – を提供することです。これにより、弱い専門家でさえ正確なガイダンスを提供し、テスト時に特権情報にアクセスすることなく、学生エージェントのパフォーマンスを著しく向上させることができる。テキストベースのゲーム(ALFWorld)、Webナビゲーション(WebShop)、対話型コーディング(Intercode Bash)など、さまざまな意思決定ベンチマークでLEAPを評価した。実験の結果,LEAP(1)は行動のクローン化に優れ,ReActベースライン(2)は弱い学生モデル(例えばLlama3-8B)が強い教師モデル(GPT4-o)を上回ることを可能とし,(3)弱いモデルでも特権バージョンを利用すれば自己改善できることがわかった。また、LEAPの成功は、特権情報と学生の実現可能性のバランスにかかっていることを示す理論的分析を行い、それを実証的に検証した。私たちのコードはhttps://leap-llm.github.ioで公開されています。

関連論文リスト

SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Is your multimodal large language model a good science tutor? [14.505855717011725]
MLLM(Multimodal large language model)は、科学的推論タスクにおける優れた性能を示す。本研究では,MLLMを総合的な教育用ルーブリックとシミュレートされた学生モデルを用いて,理科講師として評価する枠組みを提案する。
論文参考訳（メタデータ） (2025-05-09T20:38:23Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文参考訳（メタデータ） (2025-04-07T23:57:32Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
論文参考訳（メタデータ） (2023-11-04T11:21:38Z)
How to Teach Programming in the AI Era? Using LLMs as a Teachable Agent for Debugging [28.321080454393687]
大規模言語モデル(LLM)は、生成スキルに優れ、実行不可能な速度でコンテンツを作成することができる。人間の初心者は、教師アシスタントの役割を担い、LLMで教えられるエージェントのコードを支援する。そこで我々は,人間の初心者が指導アシスタントの役割を担い,LLMを利用した学習エージェントのコード作成を支援する,デバッグの意図的な実践を促進する新しいシステムであるPhyを紹介した。
論文参考訳（メタデータ） (2023-10-08T21:39:47Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
Language Model Self-improvement by Reinforcement Learning Contemplation [13.152789365858812]
本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,教師なしの新しい手法を提案する。学生として、モデルはラベルのない質問に対する回答を生成し、教師として、生成されたテキストを評価し、それに応じてスコアを割り当てる。我々は,SIRLCを推論問題,テキスト生成,機械翻訳など,様々なNLPタスクに適用できることを実証した。
論文参考訳（メタデータ） (2023-05-23T19:25:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。