論文の概要: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning
- arxiv url: http://arxiv.org/abs/2311.18799v1
- Date: Thu, 30 Nov 2023 18:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:09:22.694988
- Title: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning
- Title(参考訳): X-InstructBLIP: X-Modal 命令認識表現を LLM および創発的クロスモーダル推論に整合させるフレームワーク
- Authors: Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li, Shafiq
Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
- Abstract要約: 視覚言語による事前学習と指導訓練は、2次元視覚推論タスクにおいて汎用的な機能を示した。
凍結した大言語モデル(LLM)上に構築された、シンプルで効果的で効果的なクロスモダリティフレームワークを紹介します。
オーディオ用24KQAサンプルと3D用250KQAサンプルからなる,高品質な命令チューニングデータを自動,スケーラブルに収集する。
- 参考スコア(独自算出の注目度): 113.59943108230242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language pre-training and instruction tuning have demonstrated
general-purpose capabilities in 2D visual reasoning tasks by aligning visual
encoders with state-of-the-art large language models (LLMs). In this paper, we
introduce a simple, yet effective, cross-modality framework built atop frozen
LLMs that allows the integration of various modalities without extensive
modality-specific customization. To facilitate instruction-modality
fine-tuning, we collect high-quality instruction tuning data in an automatic
and scalable manner, composed of 24K QA samples for audio and 250K QA samples
for 3D. Leveraging instruction-aware representations, our model performs
comparably with leading-edge counterparts without the need of extensive
modality-specific pre-training or customization. Furthermore, our approach
demonstrates cross-modal reasoning abilities across two or more input
modalities, despite each modality projection being trained individually. To
study the model's cross-modal abilities, we contribute a novel Discriminative
Cross-modal Reasoning (DisCRn) evaluation task, comprising 9K audio-video QA
samples and 28K image-3D QA samples that require the model to reason
discriminatively across disparate input modalities.
- Abstract(参考訳): ビジュアルエンコーダを最先端の大規模言語モデル(LLM)と整列させることにより、2次元視覚推論タスクの汎用性を実証した。
本稿では, 凍結型LLM上に構築された簡易かつ効果的で多目的なフレームワークを導入し, 広範囲なモダリティ固有のカスタマイズを行なわず, 様々なモダリティの統合を実現する。
インストラクションモダリティの微調整を容易にするために,オーディオ用24k qaサンプルと3d用250k qaサンプルからなる,高品位なインストラクションチューニングデータを自動かつスケーラブルに収集する。
本モデルでは,命令認識表現を活用することで,事前学習やカスタマイズを必要とせず,事前学習を行う。
さらに,各モーダル予測が個別に訓練されているにも拘わらず,2つ以上の入力モダリティにまたがるクロスモーダル推論能力を示す。
本研究では,9KオーディオビデオQAサンプルと28K画像3DQAサンプルから構成され,異なる入力モダリティ間での差別的推論を要求される新しい識別的クロスモーダル推論(DisCRn)評価タスクを提案する。
関連論文リスト
- Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model [33.072967177313025]
AnyMAL(AnyMAL, Any-Modality Augmented Language Model)は,多種多様な入力モダリティ信号に起因する統一モデルである。
AnyMALはLLaMA-2 (70B)を含む最先端LLMの強力なテキストベースの推論能力を継承する
我々は、人間と自動評価の両方からなる総合的な経験分析を行い、様々なマルチモーダルタスクにおける最先端の性能を実証する。
論文 参考訳(メタデータ) (2023-09-27T22:50:51Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-17T08:44:00Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - Unimodal Face Classification with Multimodal Training [1.9580473532948401]
顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。
本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2021-12-08T09:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。