論文の概要: Towards Unified Vision-Language Models with Incomplete Multi-Modal Inputs
- arxiv url: http://arxiv.org/abs/2605.27894v1
- Date: Wed, 27 May 2026 03:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.709927
- Title: Towards Unified Vision-Language Models with Incomplete Multi-Modal Inputs
- Title(参考訳): 不完全多モード入力を用いた統合視覚言語モデルに向けて
- Authors: Xiang Fang, Wanlong Fang, Changshuo Wang, Keke Tang, Daizong Liu, Siyi Wang, Wei Ji,
- Abstract要約: 我々は,不完全なマルチモーダル入力を処理するために,統一された不完全ビデオ言語モデルを提案する。
本手法は,様々なマルチモーダルタスクにおける性能向上のために,従来の作業のためのプラグイン・アンド・プレイ・モジュールとして機能する。
- 参考スコア(独自算出の注目度): 53.851880753186585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-Language Models (VLMs) have demonstrated impressive multi-modal reasoning capabilities across diverse computer vision applications. However, these VLMs are task-specific and assume that both video and language inputs are complete. However, real-world VLM applications might face challenges due to deactivated sensors (e.g., cameras are unavailable due to data privacy), yielding modality-incomplete data and leading to inconsistency between training and testing data. While straightforward incomplete input can boast training generalization-ability and lead to training failure, its potential risks to VLMs regarding safety and trustworthiness have been largely neglected. To this end, we make the first attempt to propose a unified incomplete video-language model to process the incomplete multi-modal inputs. Extensive experimental results show that our method can serve as a plug-and-play module for previous works to improve their performance in various multi-modal tasks.
- Abstract(参考訳): Video-Language Models (VLM)は、様々なコンピュータビジョンアプリケーションにまたがる印象的なマルチモーダル推論機能を示している。
しかしながら、これらのVLMはタスク固有であり、ビデオと言語の両方の入力が完了していると仮定する。
しかし、現実のVLMアプリケーションは、非アクティブなセンサー(例えば、データのプライバシーのためにカメラは利用できない)による課題に直面し、モダリティ不完全なデータを生成し、トレーニングとテストデータの一貫性を損なう可能性がある。
単純な不完全な入力は、訓練の一般化能力を誇示し、トレーニングの失敗につながるが、安全性と信頼性に関するVLMの潜在的なリスクは無視されている。
そこで本研究では,不完全なマルチモーダル入力を処理するために,統一された不完全ビデオ言語モデルを提案する。
各種マルチモーダルタスクの性能向上のために, 従来の作業のためのプラグイン・アンド・プレイ・モジュールとして, 提案手法が有効であることを示す。
関連論文リスト
- All in One: A Unified Synthetic Data Pipeline for Multimodal Video Understanding [35.51182412533175]
本稿では、リッチで多様な監視機能を備えた無制限なマルチモーダルビデオデータを生成することができる統合合成データ生成パイプラインを提案する。
私たちのフレームワークは単一のパイプライン内で複数のタスクフォーマットをサポートし、タスク間でスケーラブルで一貫性のあるデータ生成を可能にします。
我々は,映像オブジェクトのカウント,映像に基づく視覚的質問応答,映像オブジェクトのセグメンテーションという3つの課題にアプローチを評価した。
論文 参考訳(メタデータ) (2026-04-14T06:17:35Z) - WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Towards Multimodal Video Paragraph Captioning Models Robust to Missing Modality [26.55645677311152]
ビデオキャプション(VPC)は、長いビデオのための詳細な物語を生成する。
既存のモデルは、1つの補助モダリティの一定の可用性の仮定によって制約される。
本稿では, 利用可能な全ての補助入力を有効活用し, 一定のモダリティがなくてもレジリエンスを維持する, ミス・抵抗性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:35:46Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。