Fugu-MT 論文翻訳(概要): Modular Framework for Visuomotor Language Grounding

論文の概要: Modular Framework for Visuomotor Language Grounding

arxiv url: http://arxiv.org/abs/2109.02161v1
Date: Sun, 5 Sep 2021 20:11:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-07 16:41:08.149848
Title: Modular Framework for Visuomotor Language Grounding
Title（参考訳）: Visuomotor言語接地のためのモジュールフレームワーク
Authors: Kolby Nottingham, Litian Liang, Daeyun Shin, Charless C. Fowlkes, Roy Fox, Sameer Singh
Abstract要約: 自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
参考スコア（独自算出の注目度）: 57.93906820466519
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language instruction following tasks serve as a valuable test-bed for grounded language and robotics research. However, data collection for these tasks is expensive and end-to-end approaches suffer from data inefficiency. We propose the structuring of language, acting, and visual tasks into separate modules that can be trained independently. Using a Language, Action, and Vision (LAV) framework removes the dependence of action and vision modules on instruction following datasets, making them more efficient to train. We also present a preliminary evaluation of LAV on the ALFRED task for visual and interactive instruction following.
Abstract（参考訳）: 自然言語に追従するタスクは、基礎言語とロボット研究のための貴重なテストベッドとして機能する。しかし、これらのタスクのデータ収集は高価であり、エンドツーエンドのアプローチはデータ非効率に悩まされる。我々は、言語、行動、視覚タスクを個別に訓練可能な別々のモジュールに構造化することを提案する。言語、アクション、ビジョン(LAV)フレームワークを使用することで、データセットに従う命令に対するアクションとビジョンモジュールの依存が取り除かれ、トレーニングの効率が向上する。また,視覚的およびインタラクティブな指導のためのALFREDタスク上でのLAVの予備評価を行った。

関連論文リスト

Ground-Compose-Reinforce: Tasking Reinforcement Learning Agents through Formal Language [13.650397934062859]
複雑な知覚における接地言語(例えばピクセル)と行動は、言語を介して人間と対話できる位置にあるエージェントを構築する際に重要な課題である。データから形式言語をグラウンド化するためのニューロシンボリックなフレームワークであるGround-Compose-Reinforceを提案する。データ駆動学習により、我々のフレームワークは報酬関数やシンボル検出器といったドメイン固有の要素の手動設計を避けます。
論文参考訳（メタデータ） (2025-07-14T19:05:15Z)
LIAM: Multimodal Transformer for Language Instructions, Images, Actions and Semantic Maps [18.602777449136738]
言語,イメージ,アクション,マップの入力に基づいて,アクションの書き起こしを予測するエンド・ツー・エンドのモデルであるLIAMを提案する。国内タスクのシミュレータ生成ベンチマークであるALFREDデータセットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2025-03-15T18:54:06Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文参考訳（メタデータ） (2024-08-04T06:34:24Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。 BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文参考訳（メタデータ） (2024-04-01T04:28:01Z)
Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文参考訳（メタデータ） (2023-06-30T20:09:39Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。