論文の概要: Solving New Tasks by Adapting Internet Video Knowledge
- arxiv url: http://arxiv.org/abs/2504.15369v1
- Date: Mon, 21 Apr 2025 18:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:51:16.722626
- Title: Solving New Tasks by Adapting Internet Video Knowledge
- Title(参考訳): インターネットビデオの知識に適応して新しい課題を解く
- Authors: Calvin Luo, Zilai Zeng, Yilun Du, Chen Sun,
- Abstract要約: 本稿では,ロボットのタスクや設定にまたがる高度な一般化性能を一貫して達成する,逆確率適応と呼ばれる新しい適応戦略を提案する。
ロボット環境全体にわたって、サンプルデータの小さなスケールで強力なビデオモデルを適用することで、新しい行動への一般化を成功させることに成功した。
- 参考スコア(独自算出の注目度): 32.59550659951102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generative models demonstrate great promise in robotics by serving as visual planners or as policy supervisors. When pretrained on internet-scale data, such video models intimately understand alignment with natural language, and can thus facilitate generalization to novel downstream behavior through text-conditioning. However, they may not be sensitive to the specificities of the particular environment the agent inhabits. On the other hand, training video models on in-domain examples of robotic behavior naturally encodes environment-specific intricacies, but the scale of available demonstrations may not be sufficient to support generalization to unseen tasks via natural language specification. In this work, we investigate different adaptation techniques that integrate in-domain information with large-scale pretrained video models, and explore the extent to which they enable novel text-conditioned generalization for robotic tasks, while also considering their independent data and resource considerations. We successfully demonstrate across robotic environments that adapting powerful video models with small scales of example data can successfully facilitate generalization to novel behaviors. In particular, we present a novel adaptation strategy, termed Inverse Probabilistic Adaptation, that not only consistently achieves strong generalization performance across robotic tasks and settings, but also exhibits robustness to the quality of adaptation data, successfully solving novel tasks even when only suboptimal in-domain demonstrations are available.
- Abstract(参考訳): ビデオ生成モデルは、ヴィジュアルプランナーやポリシースーパーバイザーとして機能することで、ロボット工学において大きな可能性を秘めている。
インターネット規模のデータで事前訓練された場合、このようなビデオモデルは自然言語との整合性を深く理解し、テキストコンディショニングによる下流行動の創出への一般化を促進することができる。
しかし、エージェントが居住する特定の環境の特異性には敏感ではないかもしれない。
一方,ロボット行動のドメイン内例に基づくビデオモデルは,自然に環境固有の複雑さを符号化するが,実演の規模は,自然言語仕様による未確認タスクの一般化を支援するには不十分である。
本研究では,大規模な事前学習ビデオモデルとドメイン内情報を統合する異なる適応手法について検討し,独立したデータやリソースを考慮した上で,ロボットタスクの新たなテキスト条件の一般化を実現する方法について検討する。
ロボット環境全体にわたって、サンプルデータの小さなスケールで強力なビデオモデルを適用することで、新しい行動への一般化を成功させることに成功した。
特に,Inverse Probabilistic Adaptation(逆確率適応)と呼ばれる新しい適応戦略を提案する。ロボットのタスクや設定にまたがる強力な一般化性能を実現するだけでなく,適応データの品質に頑健性を示す。
関連論文リスト
- Attribute-Based Robotic Grasping with Data-Efficient Adaptation [19.683833436076313]
属性に基づくロボットグルーピングを学習するエンド・ツー・エンドのエンコーダ・デコーダネットワークを提案する。
提案手法は,未知のオブジェクトに対して,成功率を81%以上獲得する。
論文 参考訳(メタデータ) (2025-01-04T00:37:17Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。