論文の概要: LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps
- arxiv url: http://arxiv.org/abs/2503.12230v1
- Date: Sat, 15 Mar 2025 18:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:18.148825
- Title: LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps
- Title(参考訳): LIAM: 言語命令、画像、アクション、セマンティックマップのためのマルチモーダルトランスフォーマー
- Authors: Yihao Wang, Raphael Memmesheimer, Sven Behnke,
- Abstract要約: 言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。
国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 18.602777449136738
- License:
- Abstract: The availability of large language models and open-vocabulary object perception methods enables more flexibility for domestic service robots. The large variability of domestic tasks can be addressed without implementing each task individually by providing the robot with a task description along with appropriate environment information. In this work, we propose LIAM - an end-to-end model that predicts action transcripts based on language, image, action, and map inputs. Language and image inputs are encoded with a CLIP backbone, for which we designed two pre-training tasks to fine-tune its weights and pre-align the latent spaces. We evaluate our method on the ALFRED dataset, a simulator-generated benchmark for domestic tasks. Our results demonstrate the importance of pre-aligning embedding spaces from different modalities and the efficacy of incorporating semantic maps.
- Abstract(参考訳): 大規模言語モデルとオープン語彙オブジェクト認識手法が利用可能になったことで、国内サービスロボットの柔軟性が向上した。
ロボットにタスク記述と適切な環境情報を提供することにより、各タスクを個別に実施することなく、家庭内タスクの大きな変動に対処することができる。
本研究では,言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンド・エンド・モデルであるLIAMを提案する。
言語と画像の入力はCLIPバックボーンでエンコードされ、そこでは2つの事前学習タスクを設計し、その重みを微調整し、潜伏空間を事前調整する。
国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
本研究は, 異なるモダリティからの埋め込み空間の事前調整の重要性と, セマンティックマップの活用の有効性を示すものである。
関連論文リスト
- LiLMaps: Learnable Implicit Language Maps [18.342569823885864]
本稿では、視覚言語機能の統合により、漸進的な暗黙マッピングを強化するアプローチを提案する。
具体的には、(i)シーンに新しいオブジェクトが現れたときに使用できる暗黙の言語マップのためのデコーダ最適化手法を提案し、(ii)異なる視聴位置間の一貫性のない視覚言語予測の問題に対処する。
論文 参考訳(メタデータ) (2025-01-06T16:04:56Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Learning Flexible Translation between Robot Actions and Language
Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。
我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。
事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文 参考訳(メタデータ) (2022-07-15T12:37:05Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。