論文の概要: Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation
- arxiv url: http://arxiv.org/abs/2412.10425v3
- Date: Thu, 09 Jan 2025 22:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:34.143405
- Title: Active Inference for Self-Organizing Multi-LLM Systems: A Bayesian Thermodynamic Approach to Adaptation
- Title(参考訳): 自己組織型マルチLLMシステムのアクティブ推論:適応に対するベイズ熱力学的アプローチ
- Authors: Rithvik Prakki,
- Abstract要約: 本稿では,大規模言語モデル(LLM)とアクティブ推論を統合し,適応型言語エージェントを作成するための新しいアプローチを提案する。
本フレームワークは,3つの状態要因(確率,探索,情報状態)を用いて環境をモデル化する。
実験により、エージェントが環境力学の正確なモデルを開発することにより、このアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a novel approach to creating adaptive language agents by integrating active inference with large language models (LLMs). While LLMs demonstrate remarkable capabilities, their reliance on static prompts limits adaptation to new information and changing environments. We address this by implementing an active inference framework that acts as a cognitive layer above an LLM-based agent, dynamically adjusting prompts and search strategies through principled information-seeking behavior. Our framework models the environment using three state factors (prompt, search, and information states) with seven observation modalities capturing quality metrics. By framing the agent's learning through the free energy principle, we enable systematic exploration of prompt combinations and search strategies. Experimental results demonstrate the effectiveness of this approach, with the agent developing accurate models of environment dynamics evidenced by emergent structure in observation matrices. Action selection patterns reveal sophisticated exploration-exploitation behavior, transitioning from initial information-gathering to targeted prompt testing. The integration of thermodynamic principles with language model capabilities provides a principled framework for creating robust, adaptable agents, extending active inference beyond traditional low-dimensional control problems to high-dimensional, language-driven environments.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)とアクティブ推論を統合し,適応型言語エージェントを作成するための新しいアプローチを提案する。
LLMは目覚ましい能力を示すが、静的なプロンプトへの依存は、新しい情報への適応と環境の変化を制限する。
本研究では,LLMエージェント上の認知層として機能する能動的推論フレームワークを実装し,情報探索の原理によってプロンプトや探索戦略を動的に調整する。
本フレームワークは,3つの状態要因(確率,探索,情報状態)を用いて環境をモデル化する。
エージェントの学習を自由エネルギー原理でフレーミングすることにより、迅速な組み合わせと探索戦略の体系的な探索を可能にする。
実験により,観測行列における創発的構造によって実証された環境力学の正確なモデルを開発するエージェントを用いて,このアプローチの有効性を実証した。
行動選択パターンは、初期情報収集からターゲットの即時テストへ移行する洗練された探索・探索行動を示す。
熱力学原理と言語モデル機能の統合は、堅牢で適応可能なエージェントを作成するための原則的なフレームワークを提供し、従来の低次元制御問題を超えて高次元の言語駆動環境まで活性推論を拡張する。
関連論文リスト
- Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Explore the Context: Optimal Data Collection for Context-Conditional Dynamics Models [7.766117084613689]
我々は、様々な性質を持つ力学系のパラメタライズドファミリーの力学モデルを学ぶ。
我々は、限られた数の環境相互作用に対して、与えられたシステムを最適に探索するアクションシーケンスを計算する。
本手法の有効性を,非線形な玩具・プロブレムと2つのよく知られた強化学習環境において示す。
論文 参考訳(メタデータ) (2021-02-22T22:52:39Z) - Deep active inference agents using Monte-Carlo methods [3.8233569758620054]
モンテカルロサンプリングを用いた連続状態空間における深部能動推論エージェント構築のためのニューラルアーキテクチャを提案する。
提案手法は,タスク性能を維持しつつ,環境動態を効率的に学習することを可能にする。
その結果、深層能動推論は生物学的にインスパイアされた知的エージェントを開発するための柔軟な枠組みを提供することが示された。
論文 参考訳(メタデータ) (2020-06-07T15:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。