Fugu-MT 論文翻訳(概要): X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

論文の概要: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

arxiv url: http://arxiv.org/abs/2311.18799v1
Date: Thu, 30 Nov 2023 18:43:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 15:09:22.694988
Title: X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning
Title（参考訳）: X-InstructBLIP: X-Modal 命令認識表現を LLM および創発的クロスモーダル推論に整合させるフレームワーク
Authors: Artemis Panagopoulou, Le Xue, Ning Yu, Junnan Li, Dongxu Li, Shafiq Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
Abstract要約: 視覚言語による事前学習と指導訓練は、2次元視覚推論タスクにおいて汎用的な機能を示した。凍結した大言語モデル(LLM)上に構築された、シンプルで効果的で効果的なクロスモダリティフレームワークを紹介します。オーディオ用24KQAサンプルと3D用250KQAサンプルからなる,高品質な命令チューニングデータを自動,スケーラブルに収集する。
参考スコア（独自算出の注目度）: 113.59943108230242
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-language pre-training and instruction tuning have demonstrated general-purpose capabilities in 2D visual reasoning tasks by aligning visual encoders with state-of-the-art large language models (LLMs). In this paper, we introduce a simple, yet effective, cross-modality framework built atop frozen LLMs that allows the integration of various modalities without extensive modality-specific customization. To facilitate instruction-modality fine-tuning, we collect high-quality instruction tuning data in an automatic and scalable manner, composed of 24K QA samples for audio and 250K QA samples for 3D. Leveraging instruction-aware representations, our model performs comparably with leading-edge counterparts without the need of extensive modality-specific pre-training or customization. Furthermore, our approach demonstrates cross-modal reasoning abilities across two or more input modalities, despite each modality projection being trained individually. To study the model's cross-modal abilities, we contribute a novel Discriminative Cross-modal Reasoning (DisCRn) evaluation task, comprising 9K audio-video QA samples and 28K image-3D QA samples that require the model to reason discriminatively across disparate input modalities.
Abstract（参考訳）: ビジュアルエンコーダを最先端の大規模言語モデル(LLM)と整列させることにより、2次元視覚推論タスクの汎用性を実証した。本稿では, 凍結型LLM上に構築された簡易かつ効果的で多目的なフレームワークを導入し, 広範囲なモダリティ固有のカスタマイズを行なわず, 様々なモダリティの統合を実現する。インストラクションモダリティの微調整を容易にするために,オーディオ用24k qaサンプルと3d用250k qaサンプルからなる,高品位なインストラクションチューニングデータを自動かつスケーラブルに収集する。本モデルでは,命令認識表現を活用することで,事前学習やカスタマイズを必要とせず,事前学習を行う。さらに,各モーダル予測が個別に訓練されているにも拘わらず,2つ以上の入力モダリティにまたがるクロスモーダル推論能力を示す。本研究では,9KオーディオビデオQAサンプルと28K画像3DQAサンプルから構成され,異なる入力モダリティ間での差別的推論を要求される新しい識別的クロスモーダル推論(DisCRn)評価タスクを提案する。

関連論文リスト

RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。 RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。これは視覚的理解と高度な分析タスクの両方に有効である。
論文参考訳（メタデータ） (2025-07-28T12:39:33Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文参考訳（メタデータ） (2025-06-09T16:20:54Z)
Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D [107.69104331520677]
Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。コントラ4は、人間の注釈付きキャプションとモデルの混合フィルタを組み合わせて高品質な監視を確実にし、174kのトレーニング例と2.3kの試験セットを手作業で検証する。タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、最先端のモデルでは全体の56%の精度と4つのモダリティ設定で42%の精度しか達成していない。
論文参考訳（メタデータ） (2025-06-02T03:12:13Z)
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。 VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。 2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-11T05:51:44Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文参考訳（メタデータ） (2024-07-19T03:43:48Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。 X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文参考訳（メタデータ） (2024-05-29T17:59:58Z)
Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文参考訳（メタデータ） (2023-12-08T08:18:12Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文参考訳（メタデータ） (2022-06-21T07:29:37Z)
Unimodal Face Classification with Multimodal Training [1.9580473532948401]
顔の頑健な分類のためのMTUT(Multimodal Training Unimodal Test)フレームワークを提案する。本フレームワークは,トレーニング中のモダリティ間の関係を利用して,テスト中の不完全な単一モダリティ入力の補完として適用する。 MTUTフレームワークは、両方のデータセットの2Dおよび3D設定において、10のベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2021-12-08T09:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。