Fugu-MT 論文翻訳(概要): Learning the Effects of Physical Actions in a Multi-modal Environment

論文の概要: Learning the Effects of Physical Actions in a Multi-modal Environment

arxiv url: http://arxiv.org/abs/2301.11845v1
Date: Fri, 27 Jan 2023 16:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 14:51:35.139261
Title: Learning the Effects of Physical Actions in a Multi-modal Environment
Title（参考訳）: マルチモーダル環境における身体行動の効果の学習
Authors: Gautier Dagan, Frank Keller, Alex Lascarides
Abstract要約: 大規模言語モデル(LLM)は、物理的コモンセンス情報を不十分に扱う。本稿では,現実的な感覚入力のみから行動の結果を予測するマルチモーダルタスクを提案する。マルチモーダルモデルでは、視覚情報で拡張した場合に、物理的なコモンセンスをキャプチャできることを示す。
参考スコア（独自算出の注目度）: 17.757831697284498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) handle physical commonsense information inadequately. As a result of being trained in a disembodied setting, LLMs often fail to predict an action's outcome in a given environment. However, predicting the effects of an action before it is executed is crucial in planning, where coherent sequences of actions are often needed to achieve a goal. Therefore, we introduce the multi-modal task of predicting the outcomes of actions solely from realistic sensory inputs (images and text). Next, we extend an LLM to model latent representations of objects to better predict action outcomes in an environment. We show that multi-modal models can capture physical commonsense when augmented with visual information. Finally, we evaluate our model's performance on novel actions and objects and find that combining modalities help models to generalize and learn physical commonsense reasoning better.
Abstract（参考訳）: 大規模言語モデル(llm)は物理的常識情報を不適切に扱う。絶望的な環境でのトレーニングの結果、LLMは特定の環境でのアクションの結果を予測するのに失敗することが多い。しかしながら、実行前にアクションの効果を予測することは、目標を達成するためにコヒーレントなアクションシーケンスがしばしば必要となるプランニングにおいて不可欠である。そこで本研究では,現実的な感覚入力(イメージとテキスト)からのみ行動の結果を予測するマルチモーダルタスクを提案する。次に、LLMを拡張してオブジェクトの潜在表現をモデル化し、環境におけるアクションの結果をより正確に予測する。マルチモーダルモデルは,視覚情報を付加することで,物理的常識を捉えることができることを示す。最後に、新しいアクションやオブジェクトに対するモデルの性能を評価し、モダリティを組み合わせることで、モデルがより一般的なコモンセンス推論を一般化し学習するのに役立つことを確かめる。

関連論文リスト

Vision and Intention Boost Large Language Model in Long-Term Action Anticipation [39.66216219048517]
長期的な行動予測は、長期にわたる将来の行動を予測することを目的としている。近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。本研究では,視覚データのリッチなセマンティック情報を完全に活用する,新しいインテンシブ・コンディション・ビジョン・ランゲージ(ICVL)モデルを提案する。
論文参考訳（メタデータ） (2025-05-03T06:33:54Z)
ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文参考訳（メタデータ） (2025-01-24T16:41:41Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-06-29T05:51:44Z)
Relax, it doesn't matter how you get there: A new self-supervised approach for multi-timescale behavior analysis [8.543808476554695]
我々は,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発した。我々のモデルは、全体およびすべてのグローバルタスクにおいて、9つのフレームレベルタスクのうち7つのうち1番目または2番目をランク付けします。
論文参考訳（メタデータ） (2023-03-15T17:58:48Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。