Fugu-MT 論文翻訳(概要): METAREFLECTION: Learning Instructions for Language Agents using Past Reflections

論文の概要: METAREFLECTION: Learning Instructions for Language Agents using Past Reflections

arxiv url: http://arxiv.org/abs/2405.13009v1
Date: Mon, 13 May 2024 10:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 02:58:21.289439
Title: METAREFLECTION: Learning Instructions for Language Agents using Past Reflections
Title（参考訳）: メタレフレクション:過去の反射を用いた言語エージェントの学習指導
Authors: Priyanshu Gupta, Shashank Kirtania, Ananya Singha, Sumit Gulwani, Arjun Radhakrishna, Sherry Shi, Gustavo Soares,
Abstract要約: 本稿では,訓練期間中に収集した個々の自己反射から,特定のドメインに対する一般的なプロンプト命令を学習する技術であるMETAREFLECTIONを紹介する。本稿では,インフラストラクチャ・アズ・コード (IAC) の脆弱性検出とREACTとCOTを用いた質問応答 (QA) の2つの領域で評価する。
参考スコア（独自算出の注目度）: 11.028256182234017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the popularity of Large Language Models (LLMs), crafting specific prompts for LLMs to perform particular tasks remains challenging. Users often engage in multiple conversational turns with an LLM-based agent to accomplish their intended task. Recent studies have demonstrated that linguistic feedback, in the form of self-reflections generated by the model, can work as reinforcement during these conversations, thus enabling quicker convergence to the desired outcome. Motivated by these findings, we introduce METAREFLECTION, a novel technique that learns general prompt instructions for a specific domain from individual self-reflections gathered during a training phase. We evaluate our technique in two domains: Infrastructure as Code (IAC) vulnerability detection and question-answering (QA) using REACT and COT. Our results demonstrate a notable improvement, with METARELECTION outperforming GPT-4 by 16.82% (IAC), 31.33% (COT), and 15.42% (REACT), underscoring the potential of METAREFLECTION as a viable method for enhancing the efficiency of LLMs.
Abstract（参考訳）: LLM(Large Language Models)の人気にもかかわらず、LLMが特定のタスクを実行するための特別なプロンプトを作成することは、依然として難しい。ユーザは、意図したタスクを達成するために、LLMベースのエージェントと複数の会話を交互に行うことが多い。近年の研究では、言語フィードバックは、モデルによって生成された自己回帰の形で、これらの会話の間に強化として機能し、より迅速に望ましい結果に収束することができることが示されている。これらの知見に触発されて,訓練期間中に収集した個別の自己回帰から,特定のドメインに対する一般的なプロンプト命令を学習する新しいテクニックであるMETAREFLECTIONを紹介した。本稿では,インフラストラクチャ・アズ・コード (IAC) の脆弱性検出とREACTとCOTを用いた質問応答 (QA) の2つの領域で評価する。その結果,METARELECTION は GPT-4 を16.82%(IAC),31.33%(COT),15.42%(REACT)で上回った。

関連論文リスト

Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks [22.908904483320953]
コーディングタスクにおけるLarge Language Models (LLM) は、しばしばその広範な事前学習コーパスの反映である。動作プリミティブのセットをLCMに装備する一般のIRAフレームワークであるIRAエージェントを提案する。我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。
論文参考訳（メタデータ） (2026-01-16T09:06:47Z)
QiMeng-NeuComBack: Self-Evolving Translation from IR to Assembly Code [52.66657751895655]
大規模言語モデル(LLM)は、ニューラルコンパイルという魅力的な新しいパラダイムを提供する。本稿では,IR-to-assemblyコンパイル用に設計された新しいベンチマークデータセットであるNeuComBackを紹介する。 LLMの内部的なプロンプト戦略を進化させる自己進化的プロンプト最適化法を提案する。
論文参考訳（メタデータ） (2025-11-03T03:20:26Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
Beyond Syntax: Action Semantics Learning for App Agents [60.56331102288794]
アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。 ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
論文参考訳（メタデータ） (2025-06-21T12:08:19Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
LLMエージェントに与えられたプロンプトのステップバイステップ命令を最適化するために、段階的な降下を行う新しい方法、textscRePromptを提案する。中間的なフィードバックを活用することで、 textscRePromptは最終的なソリューションチェッカーを必要とせずにプロンプトを最適化できる。
論文参考訳（メタデータ） (2024-06-17T01:23:11Z)
Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文参考訳（メタデータ） (2024-05-28T16:56:42Z)
An Empirical Evaluation of Pre-trained Large Language Models for Repairing Declarative Formal Specifications [7.286515881369693]
本稿では,大規模言語モデル(LLM)がアロイの宣言的仕様を修復する能力について,体系的に検討する。単エージェントと二エージェントのパラダイムを含む12の異なる修復設定を設計し,LLMを多用した。自動プロンプティング機能を備えたデュアルエージェントは,イテレーション数やトークン使用量の増加とともに,他の設定よりも優れていた。
論文参考訳（メタデータ） (2024-04-17T03:46:38Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文参考訳（メタデータ） (2024-02-03T09:48:54Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization [62.0397906276669]
CLINは、複数のトライアルを継続的に改善した最初の言語ベースのエージェントである。ゼロショットのパフォーマンスを4ポイント改善し(新しいタスクでは13)、連続的なメモリ更新によってパフォーマンスをさらに向上させることができる。これは、凍結モデル上に構築されたエージェントのための新しいアーキテクチャを示唆している。
論文参考訳（メタデータ） (2023-10-16T07:17:27Z)
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文参考訳（メタデータ） (2023-10-06T17:55:11Z)
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文参考訳（メタデータ） (2023-08-04T06:14:23Z)
Bridging the Language Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は様々なドメインに革命をもたらしたが、それでも非ラテン語スクリプトや低リソース言語に苦戦している。本稿では,実行時にクエリ毎のプロンプト戦略,埋め込みモデル,LLMを最適化する,新しい動的学習手法を提案する。提案手法では,事前学習モデルに比べて10～15%の言語性能向上と4倍のゲインを達成できた。
論文参考訳（メタデータ） (2023-05-28T14:48:38Z)
Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文参考訳（メタデータ） (2023-03-20T18:08:50Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。