Fugu-MT 論文翻訳(概要): Positive Experience Reflection for Agents in Interactive Text Environments

論文の概要: Positive Experience Reflection for Agents in Interactive Text Environments

arxiv url: http://arxiv.org/abs/2411.02223v1
Date: Mon, 04 Nov 2024 16:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.144658
Title: Positive Experience Reflection for Agents in Interactive Text Environments
Title（参考訳）: 対話型テキスト環境におけるエージェントに対する肯定的体験反射
Authors: Philip Lippmann, Matthijs T. J. Spaan, Jie Yang,
Abstract要約: Sweet&Sourは、ポジティブな経験と管理された記憶を取り入れた新しいアプローチで、意思決定時にエージェントが利用できるコンテキストを豊かにする。包括的分析は、クローズドおよびオープンソース両方のLCMにまたがっており、エージェント性能改善におけるSweet&Sourの有効性を実証している。
参考スコア（独自算出の注目度）: 9.982616173090264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intelligent agents designed for interactive environments face significant challenges in text-based games, a domain that demands complex reasoning and adaptability. While agents based on large language models (LLMs) using self-reflection have shown promise, they struggle when initially successful and exhibit reduced effectiveness when using smaller LLMs. We introduce Sweet&Sour, a novel approach that addresses these limitations in existing reflection methods by incorporating positive experiences and managed memory to enrich the context available to the agent at decision time. Our comprehensive analysis spans both closed- and open-source LLMs and demonstrates the effectiveness of Sweet&Sour in improving agent performance, particularly in scenarios where previous approaches fall short.
Abstract（参考訳）: インタラクティブな環境のために設計されたインテリジェントエージェントは、複雑な推論と適応性を必要とするドメインであるテキストベースのゲームにおいて、重大な課題に直面している。自己回帰を用いた大規模言語モデル(LLM)に基づくエージェントは、将来性を示すが、最初は成功し、小さいLLMを使用する場合の有効性が低下する。 Sweet&Sourは、前向きな経験と管理された記憶を取り入れて、意思決定時にエージェントが利用可能なコンテキストを豊かにする、既存のリフレクション手法におけるこれらの制限に対処する新しいアプローチである。我々の包括的分析は、クローズド・オープンソース両方のLCMにまたがっており、特に以前のアプローチが不十分なシナリオにおいて、エージェントのパフォーマンス改善におけるSweet&Sourの有効性を実証している。

関連論文リスト

Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents [23.785816075149484]
思考の誘導による複雑なタスクにおける大規模言語モデル(LLM)の性能向上のための強力な手法として、推論の緩和が登場した。本研究は,LLMエージェントの明示的思考効果に関する総合的研究である。ユーザを巻き込んだ設定では,必須思考がエージェントのバックファイアを引き起こし,異常なパフォーマンス低下の原因となることが分かっています。
論文参考訳（メタデータ） (2026-02-08T03:23:22Z)
Mitigating Conversational Inertia in Multi-Turn Agents [47.35031006899519]
我々は,従来の応答に対して,モデルが強い対角的注意を示す現象である会話慣性を特定する。本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好を校正するコンテキスト選好学習を提案する。
論文参考訳（メタデータ） (2026-02-03T15:47:32Z)
Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T11:16:07Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
Interpretable Risk Mitigation in LLM Agent Systems [0.0]
反復囚人ジレンマの変動に基づくゲーム理論環境におけるエージェントの挙動を探索する。本稿では,スパースオートエンコーダの潜在空間から抽出した解釈可能な特徴を持つ残差ストリームを,ゲームとプロンプトの双方に依存しない戦略修正手法を提案する。
論文参考訳（メタデータ） (2025-05-15T19:22:11Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-18T15:07:06Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文参考訳（メタデータ） (2024-12-18T12:20:04Z)
Enhancing Multi-Agent Consensus through Third-Party LLM Integration: Analyzing Uncertainty and Mitigating Hallucinations in Large Language Models [1.4582633500696451]
大きな言語モデル(LLM)は、複雑な推論タスクを扱う際にも問題に直面します。本稿では,知識境界を拡張するために異なるLSMを統合する新しい手法を提案する。算術的データセットの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-11-25T08:42:33Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T18:25:35Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文参考訳（メタデータ） (2023-05-25T04:05:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。