論文の概要: DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue
- arxiv url: http://arxiv.org/abs/2410.09252v2
- Date: Wed, 17 Sep 2025 03:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.51715
- Title: DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue
- Title(参考訳): DAVIS:知識グラフ駆動インナーモノローグによる計画エージェント
- Authors: Minh Pham Dinh, Munira Syed, Michael G Yankoski, Trenton W. Ford,
- Abstract要約: DAVISは、科学的エージェントを設計するための新しいアプローチである。
従来の検索強化世代(RAG)のアプローチとは異なり、DAVISは構造化記憶と時間記憶を取り入れている。
DAVISはRAGパイプラインで対話型検索手法を使用した最初のRAGエージェントである。
- 参考スコア(独自算出の注目度): 0.09999629695552192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a generalist scientific agent capable of performing tasks in laboratory settings to assist researchers has become a key goal in recent Artificial Intelligence (AI) research. Unlike everyday tasks, scientific tasks are inherently more delicate and complex, requiring agents to possess a higher level of reasoning ability, structured and temporal understanding of their environment, and a strong emphasis on safety. Existing approaches often fail to address these multifaceted requirements. To tackle these challenges, we present DAVIS. Unlike traditional retrieval-augmented generation (RAG) approaches, DAVIS incorporates structured and temporal memory, which enables model-based planning. Additionally, DAVIS implements an agentic, multi-turn retrieval system, similar to a human's inner monologue, allowing for a greater degree of reasoning over past experiences. DAVIS demonstrates substantially improved performance on the ScienceWorld benchmark comparing to previous approaches on 8 out of 9 elementary science subjects. In addition, DAVIS's World Model demonstrates competitive performance on the famous HotpotQA and MusiqueQA dataset for multi-hop question answering. To the best of our knowledge, DAVIS is the first RAG agent to employ an interactive retrieval method in a RAG pipeline.
- Abstract(参考訳): 近年の人工知能(AI)研究において、研究者を支援するために実験室でタスクを遂行できる汎用的な科学エージェントを設計することが重要な目標となっている。
日常的なタスクとは異なり、科学的なタスクは本質的によりデリケートで複雑であり、エージェントはより高度な推論能力、環境の構造化と時間的理解、そして安全性を強く重視する必要がある。
既存のアプローチは、これらの多面的要件に対処できないことが多い。
これらの課題に対処するため、我々はDAVISを提示する。
従来の検索拡張生成(RAG)アプローチとは異なり、DAVISは構造化メモリと時間メモリを内蔵しており、モデルベースプランニングを可能にしている。
さらに、DAVISは人間の内的モノローグに似たエージェント的マルチターン検索システムを実装しており、過去の経験よりも深い推論を可能にしている。
DAVISは、9つの基礎科学科目中8科目と比較して、ScienceWorldベンチマークで大幅に改善された性能を示している。
さらに、DAVISのWorld Modelは、マルチホップ質問応答のための有名なHotpotQAとMusiqueQAデータセット上での競合性能を示している。
我々の知る限り、DAVISはRAGパイプラインに対話的検索手法を用いた最初のRAGエージェントである。
関連論文リスト
- L3M+P: Lifelong Planning with Large Language Models [33.88987644905278]
本稿では,世界状態の表現として外部知識グラフを用いるフレームワークであるL3M+Pを紹介する。
計画時には、タスクの自然言語記述が与えられた場合、L3M+Pは知識グラフからコンテキストを検索し、古典的なプランナーのための問題定義を生成する。
論文 参考訳(メタデータ) (2025-08-03T21:01:50Z) - SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。
特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文 参考訳(メタデータ) (2025-07-31T17:57:20Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Plant in Cupboard, Orange on Table, Book on Shelf. Benchmarking Practical Reasoning and Situation Modelling in a Text-Simulated Situated Environment [18.256529559741075]
大規模言語モデル(LLM)は、自然言語を介して対話するための'チャットボット'として有名になった。
我々は、非常に抽象的に、家庭の設定をシミュレートするシンプルなテキストベースの環境を実装した。
以上の結果から,環境の複雑さとゲーム制限が性能を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、対話型環境でオブジェクトをナビゲートし、対話することによって自然言語命令を実行するタスクである。
EIFにおける重要な課題は、典型的には教師付き学習やラベル付きデータによる少数ショットのインコンテキスト学習を通じて対処される構成的タスク計画である。
本稿では,自己QAに基づくゼロショット計画手法であるソクラティック・プランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - Can Vehicle Motion Planning Generalize to Realistic Long-tail Scenarios? [11.917542484123134]
現実の自動運転システムは、稀で多様な交通シナリオに直面して安全な判断をしなければならない。
現在の最先端のプランナーは、主にnuScenes(オープンループ)やnuPlan(クローズループ)といった現実世界のデータセットで評価されます。
論文 参考訳(メタデータ) (2024-04-11T08:57:48Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Embodied Active Learning of Relational State Abstractions for Bilevel
Planning [6.1678491628787455]
述語で計画するには、エージェントはそれらを連続した環境状態で解釈できなければならない。
本稿では,エージェントが専門家とのオンライン対話を通じて述語解釈を学習する,実践型アクティブラーニングパラダイムを提案する。
我々はニューラルネットワークのアンサンブルとして述語解釈を学習し、そのエントロピーを用いて潜在的なクエリの情報性を測定する。
論文 参考訳(メタデータ) (2023-03-08T22:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。