論文の概要: Enhancing Reasoning with Collaboration and Memory
- arxiv url: http://arxiv.org/abs/2503.05944v1
- Date: Fri, 07 Mar 2025 21:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:35.124835
- Title: Enhancing Reasoning with Collaboration and Memory
- Title(参考訳): コラボレーションとメモリによる推論の強化
- Authors: Julie Michelman, Nasrin Baratalipour, Matthew Abueg,
- Abstract要約: 我々は,LLMエージェントの集団が協調して推論問題を解く,連続的な協調学習システムを提案する。
この研究は、連鎖的推論スタイルの相互運用性を研究することによって、そのようなシステムの基盤を確立する。
凍結して連続的に学習されたメモリバンクを生成し、それらを固定的、ランダムで類似性に基づく検索機構と組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We envision a continuous collaborative learning system where groups of LLM agents work together to solve reasoning problems, drawing on memory they collectively build to improve performance as they gain experience. This work establishes the foundations for such a system by studying the interoperability of chain-of-thought reasoning styles, multi-agent collaboration, and memory banks. Extending beyond the identical agents of self-consistency, we introduce varied-context agents with diverse exemplars and a summarizer agent in place of voting. We generate frozen and continuously learned memory banks of exemplars and pair them with fixed, random, and similarity-based retrieval mechanisms. Our systematic study reveals where various methods contribute to reasoning performance of two LLMs on three grounded reasoning tasks, showing that random exemplar selection can often beat more principled approaches, and in some tasks, inclusion of any exemplars serves only to distract both weak and strong models.
- Abstract(参考訳): 我々は,LLMエージェントの集団が協力して推論問題を解く,連続的な協調学習システムを提案する。
この研究は、連鎖推論スタイル、マルチエージェントコラボレーション、メモリバンクの相互運用性を研究することによって、そのようなシステムの基盤を確立する。
同一の自己整合性エージェントを超えて、さまざまな類似性を持つ多様なコンテキストエージェントと、投票の代わりに要約エージェントを導入する。
凍結して連続的に学習されたメモリバンクを生成し、それらを固定的、ランダムで類似性に基づく検索機構と組み合わせる。
本研究は,3つの基礎的推論課題における2つのLLMの推論性能に様々な手法が寄与していることを明らかにし,ランダムな例選択がより原理化された手法に勝ることがしばしばあり,あるタスクにおいて,どの例を含めることが,弱いモデルと強いモデルの両方に注意を向けることにのみ役立つことを示す。
関連論文リスト
- MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Unraveling the Mechanics of Learning-Based Demonstration Selection for In-Context Learning [43.356895599336504]
本研究では,学習に基づく実演選択手法の動作メカニズムを解析する。
類似度測定に関連する2つの重要な因子を実験的に同定した。
本稿では,タスクに依存しない要求とタスク固有の要求に対応する,効果的かつ単純化された2つの例選択手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T03:34:02Z) - A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - Memory Sharing for Large Language Model based Agents [43.53494041932615]
本稿では,リアルタイムメモリフィルタ,ストレージ,検索を統合し,In-Context学習プロセスを強化するためのフレームワークであるMemory Sharingを紹介する。
実験の結果,MSフレームワークはオープンな質問に対処する際のエージェントの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。