Fugu-MT 論文翻訳(概要): Learning from Mistakes via Cooperative Study Assistant for Large Language Models

論文の概要: Learning from Mistakes via Cooperative Study Assistant for Large Language Models

arxiv url: http://arxiv.org/abs/2305.13829v3
Date: Tue, 24 Oct 2023 16:55:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 00:43:45.358944
Title: Learning from Mistakes via Cooperative Study Assistant for Large Language Models
Title（参考訳）: 大規模言語モデルのための協調学習アシスタントによる誤りから学ぶ
Authors: Danqing Wang, Lei Li
Abstract要約: 大規模言語モデル(LLM)は、自身のフィードバックに基づいて、その世代を洗練させる可能性を実証している。 SALAM(Studio Assistant for Large Language Model)は,ミスから学習する上で,主要なLLMを支援するための補助エージェントを備えた新しいフレームワークである。
参考スコア（独自算出の注目度）: 17.318591492264023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated their potential to refine their generation based on their own feedback. However, the feedback from LLM itself is often inaccurate, thereby limiting its benefits. In this paper, we propose Study Assistant for Large LAnguage Model (SALAM), a novel framework with an auxiliary agent to assist the main LLM in learning from mistakes through interactive cooperation. In the gathering phase, the student assistant agent probes the main LLM, analyzes its errors, and collects the interaction in a mistake memory. During the examination phase, the study assistant provides guidelines by retrieving relevant cases to help the main LLM anticipate and avoid similar errors. We first investigate the effectiveness of a general study assistant and then customize it to provide LLM-specific guidance through imitation learning from successful guidance experiences. Our experiments on three LLMs using two challenging frameworks demonstrate that SALAM can significantly boost LLMs by an accuracy margin of up to 6.6 on BBH and 12.6 on BBQ.
Abstract（参考訳）: 大規模言語モデル(llm)は、自身のフィードバックに基づいて世代を洗練する可能性を実証している。しかし、llm自体からのフィードバックはしばしば不正確であり、その利点を制限している。本稿では,対話的協調によるミス学習における主要なllmを支援する補助エージェントを用いた新しい枠組みである,大言語モデル学習支援システム(salam)を提案する。収集フェーズでは、学生アシスタントエージェントがメインLLMをプローブし、そのエラーを分析し、間違ったメモリでインタラクションを収集する。試験段階では、研究アシスタントは、関連するケースを検索して、メインのllmが予測し、同様のエラーを避けるためのガイドラインを提供する。まず,汎用学習支援システムの有効性を検証し,その効果をカスタマイズし,学習経験を模倣してllm固有の指導を行う。 SALAMはBBHでは6.6、BBQでは12.6の精度でLLMを大幅に向上できることを示す。

関連論文リスト

Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文参考訳（メタデータ） (2024-06-01T02:41:59Z)
Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
数学語問題(MWP)は、大規模言語モデル(LLM)の能力を評価する上で重要な役割を果たす。より長い文脈が数学的推論に与える影響は未解明のままである。本研究は文脈長一般化可能性(CoLeG)の研究の先駆者である。
論文参考訳（メタデータ） (2024-05-23T17:13:50Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Rethinking the Roles of Large Language Models in Chinese Grammatical Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。 CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。 CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文参考訳（メタデータ） (2024-02-18T01:40:34Z)
Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。 LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文参考訳（メタデータ） (2024-02-12T19:49:58Z)
Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-12T14:35:57Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
Impact of Guidance and Interaction Strategies for LLM Use on Learner Performance and Perception [19.335003380399527]
大規模言語モデル(LLM)は、その教育的有用性を探求する研究の増加とともに、有望な道を提供する。本研究は,LLM支援学習環境の形成において,教師が果たす役割を強調した。
論文参考訳（メタデータ） (2023-10-13T01:21:52Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。