論文の概要: EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024
- arxiv url: http://arxiv.org/abs/2407.19510v1
- Date: Sun, 28 Jul 2024 15:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 17:52:40.885668
- Title: EPD: Long-term Memory Extraction, Context-awared Planning and Multi-iteration Decision @ EgoPlan Challenge ICML 2024
- Title(参考訳): EPD: EgoPlan Challenge ICML 2024
- Authors: Letian Shi, Qi Lv, Xiang Deng, Liqiang Nie,
- Abstract要約: 本研究では,長期記憶抽出,コンテキストアウェアド計画,多項目決定という3段階からなる新しい計画手法を提案する。
EPDは1,584のエゴセントリックなタスク計画質問に対して53.85%の計画精度を達成した。
- 参考スコア(独自算出の注目度): 50.89751993430737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present our solution for the EgoPlan Challenge in ICML 2024. To address the real-world egocentric task planning problem, we introduce a novel planning framework which comprises three stages: long-term memory Extraction, context-awared Planning, and multi-iteration Decision, named EPD. Given the task goal, task progress, and current observation, the extraction model first extracts task-relevant memory information from the progress video, transforming the complex long video into summarized memory information. The planning model then combines the context of the memory information with fine-grained visual information from the current observation to predict the next action. Finally, through multi-iteration decision-making, the decision model comprehensively understands the task situation and current state to make the most realistic planning decision. On the EgoPlan-Test set, EPD achieves a planning accuracy of 53.85% over 1,584 egocentric task planning questions. We have made all codes available at https://github.com/Kkskkkskr/EPD .
- Abstract(参考訳): 本稿では,ICML 2024におけるEgoPlan Challengeの解決策について述べる。
実世界の自己中心型タスク計画問題に対処するために,長期記憶抽出,コンテキスト対応計画,多項目決定という3つの段階からなる新しい計画枠組みを導入する。
タスク目標、タスク進捗、現在の観測を前提として、抽出モデルはまず、進捗映像からタスク関連メモリ情報を抽出し、複雑な長ビデオから要約されたメモリ情報に変換する。
プランニングモデルは、メモリ情報のコンテキストと現在の観測から得られるきめ細かい視覚情報を組み合わせて次の行動を予測する。
最後に、多項目意思決定を通じて、決定モデルはタスク状況と現状を包括的に理解し、最も現実的な計画決定を行う。
EgoPlan-Testのセットでは、EPDは1,584のエゴセントリックなタスク計画問題に対して53.85%の計画精度を達成した。
すべてのコードはhttps://github.com/Kkskkskr/EPDで公開しています。
関連論文リスト
- ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。
コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。
ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - Neural MP: A Generalist Neural Motion Planner [75.82675575009077]
運動計画問題にデータ駆動学習を大規模に適用することで,これを実現する。
提案手法は, シミュレーションの複雑なシーンを多数構築し, モーションプランナーから専門家のデータを収集し, 反応的なジェネラリストポリシーに抽出する。
我々は,4つの異なる環境における64の動作計画タスクについて,その方法の徹底的な評価を行う。
論文 参考訳(メタデータ) (2024-09-09T17:59:45Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、3D環境のオブジェクトをナビゲートして操作することで自然言語命令を実行するタスクである。
EIFの主な課題の1つは構成的タスク計画であり、しばしばラベル付きデータによる教師付きまたはコンテキスト内学習で対処される。
トレーニングデータを必要とせずに推測できる最初のゼロショットプランニング手法であるソクラティックプランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - AutoGPT+P: Affordance-based Task Planning with Large Language Models [6.848986296339031]
AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。
提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
論文 参考訳(メタデータ) (2024-02-16T16:00:50Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。