論文の概要: HAPFI: History-Aware Planning based on Fused Information
- arxiv url: http://arxiv.org/abs/2407.16533v1
- Date: Tue, 23 Jul 2024 14:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.956117
- Title: HAPFI: History-Aware Planning based on Fused Information
- Title(参考訳): HAPFI:融合情報に基づく歴史認識計画
- Authors: Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang,
- Abstract要約: EIF(Embodied Instruction following)は、ハイレベルな自然言語命令を与えられた一連のサブゴールを計画するタスクである。
我々はエージェントがそれぞれのステップで決定を行う際に、過去の、すなわち過去のデータを考慮する必要があると論じる。
- 参考スコア(独自算出の注目度): 18.141893873543037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Instruction Following (EIF) is a task of planning a long sequence of sub-goals given high-level natural language instructions, such as "Rinse a slice of lettuce and place on the white table next to the fork". To successfully execute these long-term horizon tasks, we argue that an agent must consider its past, i.e., historical data, when making decisions in each step. Nevertheless, recent approaches in EIF often neglects the knowledge from historical data and also do not effectively utilize information across the modalities. To this end, we propose History-Aware Planning based on Fused Information (HAPFI), effectively leveraging the historical data from diverse modalities that agents collect while interacting with the environment. Specifically, HAPFI integrates multiple modalities, including historical RGB observations, bounding boxes, sub-goals, and high-level instructions, by effectively fusing modalities via our Mutually Attentive Fusion method. Through experiments with diverse comparisons, we show that an agent utilizing historical multi-modal information surpasses all the compared methods that neglect the historical data in terms of action planning capability, enabling the generation of well-informed action plans for the next step. Moreover, we provided qualitative evidence highlighting the significance of leveraging historical multi-modal data, particularly in scenarios where the agent encounters intermediate failures, showcasing its robust re-planning capabilities.
- Abstract(参考訳): EIF(Embodied Instruction following)は、高水準の自然言語命令を与えられた一連のサブゴールを計画するタスクである。
このような長期的地平線処理をうまく実行するためには、エージェントはそれぞれのステップで決定を行う際に、過去の、すなわち過去のデータを考える必要があると論じる。
しかしながら、近年のEIFのアプローチは、歴史的データからの知識を無視することが多く、また、モダリティの情報を効果的に活用しない。
そこで本稿では,エージェントが環境と対話しながら収集する多様なモダリティの履歴データを効果的に活用する,融合情報に基づくヒストリー・アウェア・プランニング(HAPFI)を提案する。
具体的には、HAPFIは、過去のRGB観測、バウンディングボックス、サブゴール、高レベル命令を含む複数のモードを統合する。
多様な比較実験により、過去のマルチモーダル情報を利用したエージェントは、行動計画能力において過去のデータを無視する比較手法を全て超越し、次のステップで適切に表現された行動計画を作成することができることを示した。
さらに, エージェントが中間的障害に遭遇するシナリオにおいて, 歴史的マルチモーダルデータを活用することの重要性を示す定性的な証拠を提示し, その堅牢な再計画能力を示す。
関連論文リスト
- Retrieve-Plan-Generation: An Iterative Planning and Answering Framework for Knowledge-Intensive LLM Generation [47.22520829950929]
大規模言語モデル(LLM)のためのリトリーブ・プラン生成(RPG)フレームワークを提案する。
RPGはプラントークンを生成し、プランステージの後の世代をガイドする。
解答段階では、その計画に基づいて関連きめ細かい段落を選択し、さらに解答生成に使用する。
論文 参考訳(メタデータ) (2024-06-21T08:45:52Z) - FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents [64.1759086221016]
ワークフロー誘導計画の最初のベンチマークであるFlowBenchを紹介します。
FlowBenchは6つのドメインから51のシナリオをカバーしている。
以上の結果から,現在のLLMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T06:13:00Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous
Driving [96.92499034935466]
自動運転のためのエンドツーエンドの差別化学習は、最近顕著なパラダイムになっている。
第一のボトルネックは、高品質なラベル付きデータに対する大胆な欲求にある。
収集した生データの一部を段階的に注釈付けする計画指向のアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T11:39:07Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Reinforcement Learning with History-Dependent Dynamic Contexts [29.8131459650617]
歴史に依存した環境のための新しい強化学習フレームワークである動的文脈マルコフ決定プロセス(DCMDP)を紹介する。
本モデルでは,ロジスティックDCMDPに着目した特別事例を考察し,文脈遷移を決定するためにアグリゲーション関数を活用することにより,履歴長への指数的依存を断ち切る。
理論的な結果に触発されたロジスティックDCMDPの実用的モデルベースアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-02-04T01:58:21Z) - Model-based Trajectory Stitching for Improved Offline Reinforcement
Learning [7.462336024223669]
モデルに基づくデータ拡張戦略であるトラジェクトリ・スティッチ(TS)を提案する。
TSは、以前に切断された状態と結合する目に見えないアクションを導入する。
このデータ拡張戦略と行動クローニング(BC)を併用することにより,行動閉ざされたポリシーを改善できることを示す。
論文 参考訳(メタデータ) (2022-11-21T16:00:39Z) - Zero-Shot On-the-Fly Event Schema Induction [61.91468909200566]
本稿では,大規模な言語モデルを用いて,高レベルなイベント定義,特定のイベント,引数,それらの関係を予測・付与するソースドキュメントを生成する手法を提案する。
我々のモデルを用いて、任意のトピックに関する完全なスキーマを、手動のデータ収集、すなわちゼロショットの方法で、オンザフライで生成することができる。
論文 参考訳(メタデータ) (2022-10-12T14:37:00Z) - CUP: Curriculum Learning based Prompt Tuning for Implicit Event Argument
Extraction [22.746071199667146]
Implicit Event argument extract (EAE) は、文書に散らばる可能性のある引数を特定することを目的としている。
本稿では,4つの学習段階によって暗黙的EAEを解消する,カリキュラム学習に基づくプロンプトチューニング(CUP)手法を提案する。
さらに,事前学習した言語モデルから関連する知識を引き出すために,プロンプトベースのエンコーダデコーダモデルを統合する。
論文 参考訳(メタデータ) (2022-05-01T16:03:54Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。