論文の概要: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning
- arxiv url: http://arxiv.org/abs/2311.18799v1
- Date: Thu, 30 Nov 2023 18:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:09:22.694988
- Title: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware
representations to LLMs and Emergent Cross-modal Reasoning
- Title(参考訳): X-InstructBLIP: X-Modal 命令認識表現を LLM および創発的クロスモーダル推論に整合させるフレームワーク
- Authors: Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li, Shafiq
Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
- Abstract要約: 視覚言語による事前学習と指導訓練は、2次元視覚推論タスクにおいて汎用的な機能を示した。
凍結した大言語モデル(LLM)上に構築された、シンプルで効果的で効果的なクロスモダリティフレームワークを紹介します。
オーディオ用24KQAサンプルと3D用250KQAサンプルからなる,高品質な命令チューニングデータを自動,スケーラブルに収集する。
- 参考スコア(独自算出の注目度): 113.59943108230242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language pre-training and instruction tuning have demonstrated
general-purpose capabilities in 2D visual reasoning tasks by aligning visual
encoders with state-of-the-art large language models (LLMs). In this paper, we
introduce a simple, yet effective, cross-modality framework built atop frozen
LLMs that allows the integration of various modalities without extensive
modality-specific customization. To facilitate instruction-modality
fine-tuning, we collect high-quality instruction tuning data in an automatic
and scalable manner, composed of 24K QA samples for audio and 250K QA samples
for 3D. Leveraging instruction-aware representations, our model performs
comparably with leading-edge counterparts without the need of extensive
modality-specific pre-training or customization. Furthermore, our approach
demonstrates cross-modal reasoning abilities across two or more input
modalities, despite each modality projection being trained individually. To
study the model's cross-modal abilities, we contribute a novel Discriminative
Cross-modal Reasoning (DisCRn) evaluation task, comprising 9K audio-video QA
samples and 28K image-3D QA samples that require the model to reason
discriminatively across disparate input modalities.
- Abstract(参考訳): ビジュアルエンコーダを最先端の大規模言語モデル(LLM)と整列させることにより、2次元視覚推論タスクの汎用性を実証した。
本稿では, 凍結型LLM上に構築された簡易かつ効果的で多目的なフレームワークを導入し, 広範囲なモダリティ固有のカスタマイズを行なわず, 様々なモダリティの統合を実現する。
インストラクションモダリティの微調整を容易にするために,オーディオ用24k qaサンプルと3d用250k qaサンプルからなる,高品位なインストラクションチューニングデータを自動かつスケーラブルに収集する。
本モデルでは,命令認識表現を活用することで,事前学習やカスタマイズを必要とせず,事前学習を行う。
さらに,各モーダル予測が個別に訓練されているにも拘わらず,2つ以上の入力モダリティにまたがるクロスモーダル推論能力を示す。
本研究では,9KオーディオビデオQAサンプルと28K画像3DQAサンプルから構成され,異なる入力モダリティ間での差別的推論を要求される新しい識別的クロスモーダル推論(DisCRn)評価タスクを提案する。
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Unimodal Face Classification with Multimodal Training [1.9580473532948401]
顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。
本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。
MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2021-12-08T09:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。