論文の概要: InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation
- arxiv url: http://arxiv.org/abs/2311.18835v1
- Date: Thu, 30 Nov 2023 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:01:02.008204
- Title: InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation
- Title(参考訳): InstructSeq: 命令条件付きマルチモーダルシーケンス生成による視覚タスクの統合
- Authors: Rongyao Fang, Shilin Yan, Zhaoyang Huang, Jingqiu Zhou, Hao Tian,
Jifeng Dai, Hongsheng Li
- Abstract要約: InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
- 参考スコア(独自算出の注目度): 59.24938416319019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering models to dynamically accomplish tasks specified through natural
language instructions represents a promising path toward more capable and
general artificial intelligence. In this work, we introduce InstructSeq, an
instruction-conditioned multi-modal modeling framework that unifies diverse
vision tasks through flexible natural language control and handling of both
visual and textual data. InstructSeq employs a multimodal transformer
architecture encompassing visual, language, and sequential modeling. We utilize
a visual encoder to extract image features and a text encoder to encode
instructions. An autoregressive transformer fuses the representations and
generates sequential task outputs. By training with LLM-generated natural
language instructions, InstructSeq acquires a strong comprehension of free-form
instructions for specifying visual tasks. This provides an intuitive interface
for directing capabilities using flexible natural instructions. Without any
task-specific tuning, InstructSeq achieves compelling performance on semantic
segmentation, referring expression segmentation/comprehension, and image
captioning. The flexible control and multi-task unification empower the model
with more human-like versatility and generalizability for computer vision. The
code will be released soon at https://github.com/rongyaofang/InstructSeq.
- Abstract(参考訳): モデルに自然言語命令を通じて指定されたタスクを動的に達成させることは、より有能で一般的な人工知能への有望な道のりを示している。
本稿では,柔軟な自然言語制御と視覚データとテキストデータの処理を通じて多様な視覚タスクを統合する,命令条件付きマルチモーダルモデリングフレームワークinstructseqを紹介する。
instructseqは、ビジュアル、言語、シーケンシャルモデリングを含むマルチモーダルトランスフォーマーアーキテクチャを採用している。
視覚エンコーダを用いて画像特徴抽出を行い,テキストエンコーダを用いて命令を符号化する。
自己回帰変圧器は、表現を融合して逐次タスク出力を生成する。
LLM生成した自然言語命令でトレーニングすることで、InstructSeqは視覚タスクを特定するための自由形式の命令の強力な理解を得る。
これは柔軟な自然な命令を使って、直感的な指示のためのインターフェースを提供する。
タスク固有のチューニングがなければ、InstructSeqはセマンティックセグメンテーション、表現セグメンテーション/理解、イメージキャプションなどの魅力的なパフォーマンスを達成する。
柔軟な制御とマルチタスク統合により、コンピュータビジョンの汎用性と汎用性が向上する。
コードは近くhttps://github.com/rongyaofang/instructseqでリリースされる。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following [26.457571615782985]
InstructAny2Pixは、ユーザが音声、画像、テキストを含む命令を使って入力画像を編集できるフレキシブルなマルチモーダル命令フォローシステムである。
本システムでは,命令誘導型編集タスクを複数実施できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T17:53:45Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。
映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。
タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。