Fugu-MT 論文翻訳(概要): Distilling Internet-Scale Vision-Language Models into Embodied Agents

論文の概要: Distilling Internet-Scale Vision-Language Models into Embodied Agents

arxiv url: http://arxiv.org/abs/2301.12507v1
Date: Sun, 29 Jan 2023 18:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 16:50:18.636453
Title: Distilling Internet-Scale Vision-Language Models into Embodied Agents
Title（参考訳）: 電子化エージェントへのインターネットスケールビジョンランゲージモデルの蒸留
Authors: Theodore Sumers, Kenneth Marino, Arun Ahuja, Rob Fergus, Ishita Dasgupta
Abstract要約: 本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
参考スコア（独自算出の注目度）: 24.71298634838615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-following agents must ground language into their observation and action spaces. Learning to ground language is challenging, typically requiring domain-specific engineering or large quantities of human interaction data. To address this challenge, we propose using pretrained vision-language models (VLMs) to supervise embodied agents. We combine ideas from model distillation and hindsight experience replay (HER), using a VLM to retroactively generate language describing the agent's behavior. Simple prompting allows us to control the supervision signal, teaching an agent to interact with novel objects based on their names (e.g., planes) or their features (e.g., colors) in a 3D rendered environment. Fewshot prompting lets us teach abstract category membership, including pre-existing categories (food vs toys) and ad-hoc ones (arbitrary preferences over objects). Our work outlines a new and effective way to use internet-scale VLMs, repurposing the generic language grounding acquired by such models to teach task-relevant groundings to embodied agents.
Abstract（参考訳）: 命令追従エージェントは言語を観察空間と行動空間に基礎付ける必要がある。基底言語への学習は、通常、ドメイン固有のエンジニアリングまたは大量のヒューマンインタラクションデータを必要とする。この課題に対処するために,事前に訓練された視覚言語モデル (VLM) を用いてエンボディエージェントを監督する手法を提案する。モデル蒸留と後視体験再生(HER)のアイデアを組み合わせて, VLMを用いてエージェントの動作を記述する言語を遡及的に生成する。単純なプロンプトによって監督信号を制御でき、エージェントに3dレンダリングされた環境で名前(平面など)や特徴(色など)に基づいて、新しいオブジェクトと対話するように教えます。 fewshotプロンプトでは、既存のカテゴリ(食べ物とおもちゃ)やアドホックなもの(オブジェクトよりもアービタリーな好み)など、抽象的なカテゴリのメンバシップを教えられます。我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルが獲得した汎用言語基盤を再利用し、エージェントにタスク関連基盤を教える。

関連論文リスト

GoalLadder: Incremental Goal Discovery with Vision-Language Models [38.35578010611503]
視覚環境における単一言語命令からRLエージェントを学習する新しい手法を提案する。 GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。以前の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。
論文参考訳（メタデータ） (2025-06-19T15:28:27Z)
PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。 PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文参考訳（メタデータ） (2024-10-15T12:53:42Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Visually Grounded Language Learning: a review of language games, datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文参考訳（メタデータ） (2023-12-05T02:17:29Z)
LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文参考訳（メタデータ） (2023-11-29T12:41:55Z)
Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文参考訳（メタデータ） (2023-07-31T17:57:49Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)
Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-19T19:18:41Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。