論文の概要: Exploring Fusion Strategies for Multimodal Vision-Language Systems
- arxiv url: http://arxiv.org/abs/2511.21889v1
- Date: Wed, 26 Nov 2025 20:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.28665
- Title: Exploring Fusion Strategies for Multimodal Vision-Language Systems
- Title(参考訳): マルチモーダルビジョンランゲージシステムのための融合戦略の探求
- Authors: Regan Willis, Jason Bakos,
- Abstract要約: ハイブリッドBERTとビジョンネットワークフレームワークを用いた様々な融合戦略について検討する。
本稿では,アーキテクチャの後期,中期,早期にデータを融合するビジョンネットワークの3つのモデルを提案する。
実験の結果,後期核融合が最も精度が高いのに対して,早期核融合は最小の推論遅延を提供することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models often combine multiple input streams of data to more accurately capture the information that informs their decisions. In multimodal machine learning, choosing the strategy for fusing data together requires careful consideration of the application's accuracy and latency requirements, as fusing the data at earlier or later stages in the model architecture can lead to performance changes in accuracy and latency. To demonstrate this tradeoff, we investigate different fusion strategies using a hybrid BERT and vision network framework that integrates image and text data. We explore two different vision networks: MobileNetV2 and ViT. We propose three models for each vision network, which fuse data at late, intermediate, and early stages in the architecture. We evaluate the proposed models on the CMU MOSI dataset and benchmark their latency on an NVIDIA Jetson Orin AGX. Our experimental results demonstrate that while late fusion yields the highest accuracy, early fusion offers the lowest inference latency. We describe the three proposed model architectures and discuss the accuracy and latency tradeoffs, concluding that data fusion earlier in the model architecture results in faster inference times at the cost of accuracy.
- Abstract(参考訳): 現代の機械学習モデルは、複数の入力ストリームを結合して、決定を通知する情報をより正確にキャプチャすることが多い。
マルチモーダル機械学習では、データの融合戦略を選択するには、アプリケーションの正確性やレイテンシ要件を慎重に考慮する必要がある。
このトレードオフを実証するために、画像とテキストデータを統合するハイブリッドBERTとビジョンネットワークフレームワークを用いて、異なる融合戦略について検討する。
MobileNetV2 と ViT の2つの異なるビジョンネットワークを探索する。
本稿では,アーキテクチャの後期,中期,早期にデータを融合するビジョンネットワークの3つのモデルを提案する。
提案したモデルをCMU MOSIデータセット上で評価し,NVIDIA Jetson Orin AGXでレイテンシをベンチマークする。
実験の結果,後期核融合が最も精度が高いのに対して,早期核融合は最小の推論遅延を提供することがわかった。
提案する3つのモデルアーキテクチャについて述べ,精度とレイテンシのトレードオフについて論じる。
関連論文リスト
- Adaptive Fuzzy Time Series Forecasting via Partially Asymmetric Convolution and Sub-Sliding Window Fusion [0.0]
本稿では,スライディングウィンドウの時間に基づいて,部分的に非対称な設計を施した新しい畳み込みアーキテクチャを提案する。
提案手法は,一般的な時系列データセットのほとんどに対して,最先端の結果を得られる。
論文 参考訳(メタデータ) (2025-07-28T08:58:25Z) - Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting [64.45587649141842]
時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
1つのモデルは、異なるテストサンプルで一貫して他よりも優れていますが、(ii) それぞれのモデルは特定のケースで優れています。
異種モデルのサンプルレベル適応融合による時系列予測のためのフレームワークであるTimeFuseを紹介する。
論文 参考訳(メタデータ) (2025-05-24T00:45:07Z) - IncepFormerNet: A multi-scale multi-head attention network for SSVEP classification [12.935583315234553]
本研究では,Inception と Transformer アーキテクチャのハイブリッドモデルである IncepFormerNet を提案する。
IncepFormerNetは、異なる大きさの並列畳み込みカーネルを用いて、時系列データから、マルチスケールの時間情報を積極的に抽出する。
SSVEPデータのスペクトル特性に基づいて特徴を抽出するために,フィルタバンク手法を利用する。
論文 参考訳(メタデータ) (2025-02-04T13:04:03Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Efficient Partitioning Vision Transformer on Edge Devices for Distributed Inference [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑な視覚変換器を効率的に分割・実行するための新しいフレームワークED-ViTを提案する。
私たちのアプローチでは、Vision Transformerモデルをいくつかのサブモデルに分割し、それぞれがデータクラスの特定のサブセットを処理する。
本研究では,エッジデバイスにおける推論遅延を大幅に削減し,モデルサイズを最大28.9倍,34.1倍に削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T14:38:14Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - A Generative Learning Approach for Spatio-temporal Modeling in Connected
Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。
LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。
特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文 参考訳(メタデータ) (2020-03-16T03:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。