論文の概要: GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy
- arxiv url: http://arxiv.org/abs/2408.14368v1
- Date: Mon, 26 Aug 2024 15:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:31:39.232327
- Title: GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy
- Title(参考訳): GR-MG:マルチモーダルゴール条件付きポリシによる部分アノテーションデータの活用
- Authors: Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong,
- Abstract要約: GR-MGは言語命令と目標画像の両方の条件付けをサポートする新しい手法である。
GR-MGは47種類のタスクを実行でき、62.5%から75.0%、42.4%から57.6%に改善されている。
- 参考スコア(独自算出の注目度): 23.347893186905086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robotics community has consistently aimed to achieve generalizable robot manipulation with flexible natural language instructions. One of the primary challenges is that obtaining robot data fully annotated with both actions and texts is time-consuming and labor-intensive. However, partially annotated data, such as human activity videos without action labels and robot play data without language labels, is much easier to collect. Can we leverage these data to enhance the generalization capability of robots? In this paper, we propose GR-MG, a novel method which supports conditioning on both a language instruction and a goal image. During training, GR-MG samples goal images from trajectories and conditions on both the text and the goal image or solely on the image when text is unavailable. During inference, where only the text is provided, GR-MG generates the goal image via a diffusion-based image-editing model and condition on both the text and the generated image. This approach enables GR-MG to leverage large amounts of partially annotated data while still using language to flexibly specify tasks. To generate accurate goal images, we propose a novel progress-guided goal image generation model which injects task progress information into the generation process, significantly improving the fidelity and the performance. In simulation experiments, GR-MG improves the average number of tasks completed in a row of 5 from 3.35 to 4.04. In real-robot experiments, GR-MG is able to perform 47 different tasks and improves the success rate from 62.5% to 75.0% and 42.4% to 57.6% in simple and generalization settings, respectively. Code and checkpoints will be available at the project page: https://gr-mg.github.io/.
- Abstract(参考訳): ロボットコミュニティは、フレキシブルな自然言語による汎用的なロボット操作の実現を一貫して目標としてきた。
主な課題の1つは、アクションとテキストの両方で完全に注釈付けされたロボットデータを取得することは、時間がかかり、労働集約的であることである。
しかし、アクションラベルなしの人間活動ビデオや、言語ラベルなしのロボットプレイデータなど、部分的に注釈付けされたデータは、収集がずっと簡単である。
ロボットの一般化能力を高めるために、これらのデータを活用することは可能か?
本稿では,言語命令と目標画像の両方を条件付けする新しい手法であるGR-MGを提案する。
GR-MGはトレーニング中、テキストとゴールイメージの両方の軌跡と条件からゴールイメージをサンプリングする。
テキストのみを提供する推論中、GR-MGは拡散ベースの画像編集モデルを介して目標画像を生成し、テキストと生成された画像の両方に条件を付与する。
このアプローチにより、GR-MGは、言語を使ってタスクを柔軟に指定しながら、大量の部分的な注釈付きデータを活用することができる。
精度の高い目標画像を生成するために,タスク進捗情報を生成プロセスに注入し,忠実度と性能を大幅に向上させる新しい目標画像生成モデルを提案する。
シミュレーション実験では、GR-MGは5列のタスクの平均数を3.35から4.04に改善した。
実ロボット実験では、GR-MGは47種類のタスクを実行でき、成功率は62.5%から75.0%に向上し、単純な設定では42.4%から57.6%に向上した。
コードとチェックポイントはプロジェクトのページで確認できる。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation [44.740794326596664]
TheaterGenは、大規模な言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した、トレーニング不要のフレームワークである。
このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、標準化されたプロンプトブックを生成し管理する。
プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-29T17:58:14Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。