論文の概要: EffiMiniVLM: A Compact Dual-Encoder Regression Framework
- arxiv url: http://arxiv.org/abs/2604.03172v1
- Date: Fri, 03 Apr 2026 16:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.537181
- Title: EffiMiniVLM: A Compact Dual-Encoder Regression Framework
- Title(参考訳): EffiMiniVLM: コンパクトデュアルエンコーダ回帰フレームワーク
- Authors: Yin-Loon Khor, Yi-Jie Wong, Yan Chai Hum,
- Abstract要約: EffiMiniVLMは、コンパクトな視覚言語レグレッションフレームワークである。
EfficientNet-B0イメージエンコーダとMiniLMベースのテキストエンコーダを軽量回帰ヘッドに統合する。
Amazon Reviews 2023データセットの20%しか使用していない。
- 参考スコア(独自算出の注目度): 2.194788968762689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting product quality from multimodal item information is critical in cold-start scenarios, where user interaction history is unavailable and predictions must rely on images and textual metadata. However, existing vision-language models typically depend on large architectures and/or extensive external datasets, resulting in high computational cost. To address this, we propose EffiMiniVLM, a compact dual-encoder vision-language regression framework that integrates an EfficientNet-B0 image encoder and a MiniLM-based text encoder with a lightweight regression head. To improve training sample efficiency, we introduce a weighted Huber loss that leverages rating counts to emphasize more reliable samples, yielding consistent performance gains. Trained using only 20% of the Amazon Reviews 2023 dataset, the proposed model contains 27.7M parameters and requires 6.8 GFLOPs, yet achieves a CES score of 0.40 with the lowest resource cost in the benchmark. Despite its small size, it remains competitive with significantly larger models, achieving comparable performance while being approximately 4x to 8x more resource-efficient than other top-5 methods and being the only approach that does not use external datasets. Further analysis shows that scaling the data to 40% alone allows our model to overtake other methods, which use larger models and datasets, highlighting strong scalability despite the model's compact design.
- Abstract(参考訳): マルチモーダルアイテム情報から製品品質を予測することは、ユーザインタラクション履歴が利用できない、イメージやテキストメタデータに依存する、コールドスタートシナリオにおいて重要である。
しかし、既存の視覚言語モデルは通常、大きなアーキテクチャや大規模な外部データセットに依存しており、計算コストが高い。
そこで我々は,EffiMiniVLMを提案する。EfficientNet-B0イメージエンコーダとMiniLMベースのテキストエンコーダを軽量回帰ヘッドに統合した,コンパクトなデュアルエンコーダビジョン言語回帰フレームワークである。
トレーニングサンプル効率を向上させるために,評価数を利用した重み付きハマー損失を導入し,より信頼性の高いサンプルを強調することにより,一貫した性能向上を実現した。
Amazon Reviews 2023データセットの20%のみを使用してトレーニングされたこのモデルは、27.7Mパラメータを含み、6.8 GFLOPを必要とするが、ベンチマークで最低のリソースコストでCESスコア0.40を達成する。
そのサイズは小さいが、非常に大きなモデルと競合し続けており、他のトップ5メソッドよりも約4倍から8倍のリソース効率で、外部データセットを使用しない唯一のアプローチでありながら、同等のパフォーマンスを実現している。
さらに分析したところ、データを40%までスケールアップすることで、モデルがコンパクトな設計であるにもかかわらず、より大規模なモデルやデータセットを使用する他の手法を克服できることが示されています。
関連論文リスト
- Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe [68.04078852416248]
MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T19:41:48Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Elucidating the Design Space of Dataset Condensation [23.545641118984115]
データ中心学習の概念であるデータセット凝縮は、オリジナルのデータセットから合成バージョンに重要な属性を効率的に転送する。
本稿では,ソフトカテゴリ対応マッチングの実装のような,具体的な効果的な戦略を含む包括的な設計フレームワークを提案する。
我々のテストでは、ECCは最先端の精度を達成し、圧縮比0.78%に相当するResNet-18モデルでImageNet-1kで48.6%に達した。
論文 参考訳(メタデータ) (2024-04-21T18:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。