論文の概要: Multimodal Procedural Planning via Dual Text-Image Prompting
- arxiv url: http://arxiv.org/abs/2305.01795v1
- Date: Tue, 2 May 2023 21:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 16:29:53.674232
- Title: Multimodal Procedural Planning via Dual Text-Image Prompting
- Title(参考訳): デュアルテキスト画像プロンプトによるマルチモーダル手続き計画
- Authors: Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang
Wang
- Abstract要約: エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
提案するマルチモーダル手続き計画タスクでは,高レベルな目標をモデルに与え,ペア化されたテキストイメージステップの計画を生成する。
MPPの主な課題は、モダリティを越えた計画の情報性、時間的一貫性、正確性を保証することである。
- 参考スコア(独自算出の注目度): 78.73875275944711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents have achieved prominent performance in following human
instructions to complete tasks. However, the potential of providing
instructions informed by texts and images to assist humans in completing tasks
remains underexplored. To uncover this capability, we present the multimodal
procedural planning (MPP) task, in which models are given a high-level goal and
generate plans of paired text-image steps, providing more complementary and
informative guidance than unimodal plans. The key challenges of MPP are to
ensure the informativeness, temporal coherence,and accuracy of plans across
modalities. To tackle this, we propose Text-Image Prompting (TIP), a
dual-modality prompting method that jointly leverages zero-shot reasoning
ability in large language models (LLMs) and compelling text-to-image generation
ability from diffusion-based models. TIP improves the interaction in the dual
modalities using Text-to-Image Bridge and Image-to-Text Bridge, allowing LLMs
to guide the textual-grounded image plan generation and leveraging the
descriptions of image plans to ground the textual plan reversely. To address
the lack of relevant datasets, we collect WIKIPLAN and RECIPEPLAN as a testbed
for MPP. Our results show compelling human preferences and automatic scores
against unimodal and multimodal baselines on WIKIPLAN and RECIPEPLAN in terms
of informativeness, temporal coherence, and plan accuracy. Our code and data:
https://github.com/YujieLu10/MPP.
- Abstract(参考訳): エンボディードエージェントは、タスクを完了するための人間の指示に従う際、顕著なパフォーマンスを達成した。
しかし、人間の作業の完了を支援するために、テキストや画像から指示を与える可能性はまだ未定である。
この能力を明らかにするために,マルチモーダル・プロシージャ・プランニング(MPP)タスクを提案する。このタスクでは,モデルに高レベルな目標が与えられ,ペア化されたテキストイメージステップの計画を生成する。
mppの重要な課題は、情報性、時間的コヒーレンス、モダリティ間の計画の正確性を保証することである。
そこで本研究では,大規模言語モデル (llms) におけるゼロショット推論能力と拡散モデルからのテキスト対画像生成能力を同時に活用する,デュアルモダリティプロンシング手法であるtext-image prompting (tip)を提案する。
tipは、テキストから画像へのブリッジと画像からテキストへのブリッジを使用して、2つのモダリティのインタラクションを改善し、llmがテキストによる画像計画生成をガイドし、画像計画の記述を活用してテキストのプランをリバースにグラウンドする。
関連するデータセットの欠如に対処するため,MPPテストベッドとしてWIKIPLANとRECIPEPLANを収集する。
以上の結果から,WIKIPLANとRECIPEPLANでは,情報性,時間的コヒーレンス,計画の正確性の観点から,一様・多様のベースラインに対する人的嗜好や自動スコアが得られた。
コードとデータ: https://github.com/yujielu10/mpp。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。