論文の概要: AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through
Process Feedback
- arxiv url: http://arxiv.org/abs/2402.01469v1
- Date: Fri, 2 Feb 2024 14:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:54:07.925064
- Title: AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through
Process Feedback
- Title(参考訳): AMOR: プロセスフィードバックによる適応型モジュール型知識エージェント構築のためのレシピ
- Authors: Jian Guan, Wei Wu, Zujie Wen, Peng Xu, Hongning Wang, Minlie Huang
- Abstract要約: オープンソースの大規模言語モデル(LLM)に基づくエージェントフレームワークAMORを提案する。
AMORは有限状態マシン(FSM)上に推論ロジックを構築し、自律的な実行と非絡み合ったモジュールの遷移によって問題を解決する。
この推論とフィードバックの枠組みに基づき、2段階の微調整(ウォームアップと適応)によりAMORを開発する。
- 参考スコア(独自算出の注目度): 97.23214809357526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The notable success of large language models (LLMs) has sparked an upsurge in
building language agents to complete various complex tasks. We present AMOR, an
agent framework based on open-source LLMs, which reasons with external
knowledge bases and adapts to specific domains through human supervision to the
reasoning process. AMOR builds reasoning logic over a finite state machine
(FSM) that solves problems through autonomous executions and transitions over
disentangled modules. This allows humans to provide direct feedback to the
individual modules, and thus naturally forms process supervision. Based on this
reasoning and feedback framework, we develop AMOR through two-stage
fine-tuning: warm-up and adaptation. The former fine-tunes the LLM with
examples automatically constructed from various public datasets and enables
AMOR to generalize across different knowledge environments, while the latter
tailors AMOR to specific domains using process feedback. Extensive experiments
across multiple domains demonstrate the advantage of AMOR to strong baselines,
thanks to its FSM-based reasoning and process feedback mechanism.
- Abstract(参考訳): 大規模言語モデル(LLMs)の顕著な成功は、様々な複雑なタスクを完了させる言語エージェントの構築の急激な増加をもたらした。
本稿では,オープンソースllmに基づくエージェントフレームワークamorを提案する。このフレームワークは,外部知識ベースを理由とし,推論プロセスに対する人間の監督を通じて,特定のドメインに適応する。
AMORは有限状態マシン(FSM)上に推論ロジックを構築し、自律的な実行と非絡み合ったモジュールの遷移によって問題を解決する。
これにより、個々のモジュールに直接フィードバックを与え、プロセスの監視を自然に形成することができる。
この推論とフィードバックの枠組みに基づき、2段階の微調整(ウォームアップと適応)によりAMORを開発する。
前者は、様々な公開データセットからサンプルを自動構築し、AMORが様々な知識環境をまたいで一般化できるようにし、後者はプロセスフィードバックを使用して特定のドメインにAMORを調整した。
複数のドメインにわたる大規模な実験は、FSMベースの推論とプロセスフィードバック機構のおかげで、AMORの強力なベースラインへの優位性を実証している。
関連論文リスト
- Memory Sharing for Large Language Model based Agents [43.53494041932615]
大言語モデル(LLM)ベースのエージェントは、自然言語プロンプトを介してタスクを実行する。
詩の創造のようなオープンエンドな課題へのインコンテキスト学習の適用は、かなりの制限を明らかにしている。
本稿では,リアルタイムメモリストレージと検索システムを利用したLLMマルチエージェントのためのメモリ共有(MS)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:57:30Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Agent Lumos: Unified and Modular Training for Open-Source Language
Agents [93.16203525451985]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Disentangling Reasoning Capabilities from Language Models with
Compositional Reasoning Transformers [72.04044221898059]
ReasonFormerは、人間のモジュール的および構成的推論プロセスを反映するための統一的な推論フレームワークである。
表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。
統一された推論フレームワークは、単一のモデルで複数のタスクを解決し、エンドツーエンドでトレーニングされ、推論される。
論文 参考訳(メタデータ) (2022-10-20T13:39:55Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。