論文の概要: HAPFI: History-Aware Planning based on Fused Information
- arxiv url: http://arxiv.org/abs/2407.16533v1
- Date: Tue, 23 Jul 2024 14:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.956117
- Title: HAPFI: History-Aware Planning based on Fused Information
- Title(参考訳): HAPFI:融合情報に基づく歴史認識計画
- Authors: Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang,
- Abstract要約: EIF(Embodied Instruction following)は、ハイレベルな自然言語命令を与えられた一連のサブゴールを計画するタスクである。
我々はエージェントがそれぞれのステップで決定を行う際に、過去の、すなわち過去のデータを考慮する必要があると論じる。
- 参考スコア(独自算出の注目度): 18.141893873543037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Instruction Following (EIF) is a task of planning a long sequence of sub-goals given high-level natural language instructions, such as "Rinse a slice of lettuce and place on the white table next to the fork". To successfully execute these long-term horizon tasks, we argue that an agent must consider its past, i.e., historical data, when making decisions in each step. Nevertheless, recent approaches in EIF often neglects the knowledge from historical data and also do not effectively utilize information across the modalities. To this end, we propose History-Aware Planning based on Fused Information (HAPFI), effectively leveraging the historical data from diverse modalities that agents collect while interacting with the environment. Specifically, HAPFI integrates multiple modalities, including historical RGB observations, bounding boxes, sub-goals, and high-level instructions, by effectively fusing modalities via our Mutually Attentive Fusion method. Through experiments with diverse comparisons, we show that an agent utilizing historical multi-modal information surpasses all the compared methods that neglect the historical data in terms of action planning capability, enabling the generation of well-informed action plans for the next step. Moreover, we provided qualitative evidence highlighting the significance of leveraging historical multi-modal data, particularly in scenarios where the agent encounters intermediate failures, showcasing its robust re-planning capabilities.
- Abstract(参考訳): EIF(Embodied Instruction following)は、高水準の自然言語命令を与えられた一連のサブゴールを計画するタスクである。
このような長期的地平線処理をうまく実行するためには、エージェントはそれぞれのステップで決定を行う際に、過去の、すなわち過去のデータを考える必要があると論じる。
しかしながら、近年のEIFのアプローチは、歴史的データからの知識を無視することが多く、また、モダリティの情報を効果的に活用しない。
そこで本稿では,エージェントが環境と対話しながら収集する多様なモダリティの履歴データを効果的に活用する,融合情報に基づくヒストリー・アウェア・プランニング(HAPFI)を提案する。
具体的には、HAPFIは、過去のRGB観測、バウンディングボックス、サブゴール、高レベル命令を含む複数のモードを統合する。
多様な比較実験により、過去のマルチモーダル情報を利用したエージェントは、行動計画能力において過去のデータを無視する比較手法を全て超越し、次のステップで適切に表現された行動計画を作成することができることを示した。
さらに, エージェントが中間的障害に遭遇するシナリオにおいて, 歴史的マルチモーダルデータを活用することの重要性を示す定性的な証拠を提示し, その堅牢な再計画能力を示す。
関連論文リスト
- LHPF: Look back the History and Plan for the Future in Autonomous Driving [10.855426442780516]
本稿では,歴史計画情報を統合した模倣学習プランナ LHPF を紹介する。
我々のアプローチでは、歴史的計画意図をプールする歴史的意図集約モジュールを採用している。
実世界のデータと合成データの両方を用いた実験は、LHPFが既存の高度な学習ベースのプランナーに勝るだけでなく、純粋に学習ベースのプランナーがエキスパートを上回った最初の事例であることを示している。
論文 参考訳(メタデータ) (2024-11-26T09:30:26Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - TransferTOD: A Generalizable Chinese Multi-Domain Task-Oriented Dialogue System with Transfer Capabilities [46.91749457402889]
タスク指向対話(TOD)システムは、情報収集を含むタスク指向の会話を効率的に処理することを目的としている。
情報収集にTODを正確に、効率的に効果的に活用する方法は、常に重要かつ困難な課題であった。
近年,Large Language Models (LLM) は対話,命令生成,推論において優れていることが実証されている。
論文 参考訳(メタデータ) (2024-07-31T15:38:15Z) - Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation [47.22520829950929]
大規模言語モデル(LLM)のためのリトリーブ・プラン生成(RPG)フレームワークを提案する。
RPGはプラントークンを生成し、プランステージの後の世代をガイドする。
解答段階では、その計画に基づいて関連きめ細かい段落を選択し、さらに解答生成に使用する。
論文 参考訳(メタデータ) (2024-06-21T08:45:52Z) - FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents [64.1759086221016]
ワークフロー誘導計画の最初のベンチマークであるFlowBenchを紹介します。
FlowBenchは6つのドメインから51のシナリオをカバーしている。
以上の結果から,現在のLLMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T06:13:00Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous
Driving [96.92499034935466]
自動運転のためのエンドツーエンドの差別化学習は、最近顕著なパラダイムになっている。
第一のボトルネックは、高品質なラベル付きデータに対する大胆な欲求にある。
収集した生データの一部を段階的に注釈付けする計画指向のアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T11:39:07Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Reinforcement Learning with History-Dependent Dynamic Contexts [29.8131459650617]
歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-02-04T01:58:21Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。