論文の概要: See, Plan, Predict: Language-guided Cognitive Planning with Video
Prediction
- arxiv url: http://arxiv.org/abs/2210.03825v1
- Date: Fri, 7 Oct 2022 21:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:48:42.628487
- Title: See, Plan, Predict: Language-guided Cognitive Planning with Video
Prediction
- Title(参考訳): 視聴・計画・予測:映像予測による言語誘導型認知計画
- Authors: Maria Attarian, Advaya Gupta, Ziyi Zhou, Wei Yu, Igor Gilitschenski,
Animesh Garg
- Abstract要約: 言語誘導ビデオ予測による認知計画アルゴリズムを考案する。
このネットワークには、未知のオブジェクトに一般化された自然言語入力に基づいて概念を基底化する能力が備わっている。
- 参考スコア(独自算出の注目度): 27.44435424335596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive planning is the structural decomposition of complex tasks into a
sequence of future behaviors. In the computational setting, performing
cognitive planning entails grounding plans and concepts in one or more
modalities in order to leverage them for low level control. Since real-world
tasks are often described in natural language, we devise a cognitive planning
algorithm via language-guided video prediction. Current video prediction models
do not support conditioning on natural language instructions. Therefore, we
propose a new video prediction architecture which leverages the power of
pre-trained transformers.The network is endowed with the ability to ground
concepts based on natural language input with generalization to unseen objects.
We demonstrate the effectiveness of this approach on a new simulation dataset,
where each task is defined by a high-level action described in natural
language. Our experiments compare our method again stone video generation
baseline without planning or action grounding and showcase significant
improvements. Our ablation studies highlight an improved generalization to
unseen objects that natural language embeddings offer to concept grounding
ability, as well as the importance of planning towards visual "imagination" of
a task.
- Abstract(参考訳): 認知計画 (cognitive planning) は、複雑なタスクを一連の振る舞いに分解する構造である。
計算環境では、認知計画の実行は、低レベルの制御にそれらを活用するために、1つ以上のモダリティの基盤となる計画と概念を必要とする。
実世界のタスクはしばしば自然言語で記述されるので、言語誘導ビデオ予測による認知計画アルゴリズムを考案する。
現在のビデオ予測モデルは、自然言語命令の条件付けをサポートしていない。
そこで,本研究では,事前学習したトランスフォーマーのパワーを生かした新しい映像予測アーキテクチャを提案する。
提案手法の有効性を,自然言語で記述されたハイレベルなアクションによって各タスクが定義される新しいシミュレーションデータセットで示す。
実験では, 提案手法を石造映像生成ベースラインと比較し, 計画や動作のグラウンド化を行わず, 大幅な改善を示した。
我々のアブレーション研究は、自然言語埋め込みが概念基盤能力にもたらす未確認物体への一般化の改善と、タスクの視覚的「想像」への計画の重要性を強調している。
関連論文リスト
- Can-Do! A Dataset and Neuro-Symbolic Grounded Framework for Embodied Planning with Large Multimodal Models [85.55649666025926]
具体的計画能力を評価するために設計されたベンチマークデータセットであるCan-Doを紹介する。
私たちのデータセットには400のマルチモーダルサンプルが含まれており、それぞれが自然言語のユーザ指示、環境を描写した視覚イメージ、状態変化、対応するアクションプランで構成されています。
ニューログラウンド(NeuroGround)は、まず認識された環境状態において計画生成を基礎とし、次に象徴的な計画エンジンを活用してモデル生成計画を強化する、ニューログラウンド(NeuroGround)を提案する。
論文 参考訳(メタデータ) (2024-09-22T00:30:11Z) - How language models extrapolate outside the training data: A case study in Textualized Gridworld [32.5268320198854]
我々は,次世代の予測や思考の微調整といった従来の手法が,大規模で目に見えない環境での一般化に失敗していることを示す。
人間の認知と二重プロセス理論にインスパイアされた言語モデルでは,対話前に認知地図を構築するべきである。
論文 参考訳(メタデータ) (2024-06-21T16:10:05Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Integrating AI Planning with Natural Language Processing: A Combination
of Explicit and Tacit Knowledge [15.488154564562185]
本稿では,AI計画と自然言語処理の共通点と関係について概説する。
1)計画ベーステキスト理解,(2)計画ベース自然言語処理,(3)計画ベース説明可能性,(4)テキストベースヒューマンロボットインタラクション,(5)アプリケーション。
論文 参考訳(メタデータ) (2022-02-15T02:19:09Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。