論文の概要: PandaGPT: One Model To Instruction-Follow Them All
- arxiv url: http://arxiv.org/abs/2305.16355v1
- Date: Thu, 25 May 2023 04:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:05:50.069161
- Title: PandaGPT: One Model To Instruction-Follow Them All
- Title(参考訳): PandaGPT:教科をフォローする1つのモデル
- Authors: Yixuan Su and Tian Lan and Huayang Li and Jialu Xu and Yan Wang and
Deng Cai
- Abstract要約: PandaGPTは、視覚的および聴覚的指示追従機能を備えた大型LANguage MoDelsをエミュレートするアプローチである。
PandaGPTは、詳細な画像記述生成、ビデオにインスパイアされたストーリーの執筆、音声に関する質問に答えるといった複雑なタスクを実行することができる。
- 参考スコア(独自算出の注目度): 43.481806913988805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PandaGPT, an approach to emPower large lANguage moDels with visual
and Auditory instruction-following capabilities. Our pilot experiments show
that PandaGPT can perform complex tasks such as detailed image description
generation, writing stories inspired by videos, and answering questions about
audios. More interestingly, PandaGPT can take multimodal inputs simultaneously
and compose their semantics naturally. For example, PandaGPT can connect how
objects look in an image/video and how they sound in an audio. To do so,
PandaGPT combines the multimodal encoders from ImageBind and the large language
models from Vicuna. Notably, only aligned image-text pairs are required for the
training of PandaGPT. Thanks to the strong capability of ImageBind in embedding
data from different modalities into the same space, PandaGPT displays emergent,
i.e. zero-shot, cross-modal behaviors for data other than image and text (e.g.,
video, audio, depth, thermal, and IMU). We hope that PandaGPT serves as an
initial step toward building AGI that can perceive and understand inputs in
different modalities holistically, as we humans do. Our project page is at
https://panda-gpt.github.io/.
- Abstract(参考訳): PandaGPTは,視覚的および聴覚的指示追従機能を備えた大規模LANguage moDelsをエミュレートする手法である。
実験の結果,PandaGPTは詳細な画像記述生成,ビデオにインスパイアされたストーリーの執筆,音声に関する質問への回答など,複雑なタスクを実行できることがわかった。
さらに興味深いことに、PandaGPTはマルチモーダル入力を同時に受け取り、それらのセマンティクスを自然に構成することができる。
例えば、PandaGPTは、オブジェクトが画像やビデオでどのように見えるか、音声でどのように聞こえるか、を接続できる。
そのためにPandaGPTは、ImageBindのマルチモーダルエンコーダと、Vicunaの大規模言語モデルを組み合わせる。
特に、PandaGPTのトレーニングには、画像テキストペアのみが必要である。
異なるモダリティからのデータを同じ空間に埋め込むためのimagebindの強力な能力のおかげで、pandagptは、画像やテキスト以外のデータ(ビデオ、オーディオ、深度、熱、immなど)に対して、ゼロショット、クロスモーダルな振る舞いを創発的に表示する。
私たちは、PandaGPTがAGIを構築する最初のステップとして機能し、人間がしているように、異なるモダリティで入力を認識し、理解することができることを願っています。
プロジェクトページはhttps://panda-gpt.github.io/にあります。
関連論文リスト
- MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data [50.94623170336122]
合成画像データと公開画像データのキャプション中の単語に対応する意味論的に意味のある画像作物を抽出し,マルチモーダルデータセットをブートストラップする。
我々のモデルMUMUは拡散復号器を備えた視覚言語モデルエンコーダで構成されており、単一の8xH100 GPUノードで訓練されている。
論文 参考訳(メタデータ) (2024-06-26T23:21:42Z) - TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation [72.25642183446102]
マルチシーンビデオを生成するためのシンプルで効果的なタイムアラインド・キャプション(TALC)フレームワークを提案する。
本稿では,T2Vモデルを用いて,マルチシーンのテキスト記述に準拠し,視覚的に一貫したマルチシーン映像を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T21:52:39Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - An Empirical Study on How the Developers Discussed about Pandas Topics [0.0]
Stack Overflow(SO)など,オンライン開発者フォーラムでは,数多くの議論が主流になっている。
本研究の目的は,パンダのトピックの人気と難しさを明らかにすることである。
開発者は、エラーや処理、可視化、外部サポート、データフレーム、最適化を除いて、SOにおける様々なパンダのトピックについて議論する。
論文 参考訳(メタデータ) (2022-10-07T13:04:58Z) - Multi-Goal Reinforcement Learning environments for simulated Franka
Emika Panda robot [4.611412564351357]
panda-gymは、OpenAI Gymと統合されたFranka Emika Pandaロボットのための強化学習環境である。
5つのタスク: リーチ、プッシュ、スライド、ピック&プレイス、スタック。
オープンソースリサーチを促進するため、オープンソースの物理エンジンであるPyBulletを使用することを選択しました。
論文 参考訳(メタデータ) (2021-06-25T15:13:36Z) - PANDA: A Gigapixel-level Human-centric Video Dataset [74.12377583050142]
大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオは、ギガピクセルのカメラで撮影され、広い視野と高解像度の細部の両方で現実世界のシーンをカバーしている。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
論文 参考訳(メタデータ) (2020-03-10T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。