論文の概要: Bounded-Compute Multimodal Regression for Product-Rating Prediction
- arxiv url: http://arxiv.org/abs/2605.27737v1
- Date: Tue, 26 May 2026 22:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.580551
- Title: Bounded-Compute Multimodal Regression for Product-Rating Prediction
- Title(参考訳): 製品価格予測のための境界計算型マルチモーダル回帰
- Authors: William Leach, Ru He, Sizhuo Ma, Yizhen Jia, Min Cao, Jian Wang, Rick Cao,
- Abstract要約: 製品年代予測のためのSmolVLM2-256M-Video-Instructの有界数値適応を提案する。
最近のマルチモーダルエンゲージメント予測の結果により、我々は言語ヘッドをプールされたデコーダ状態によって供給される軽量な2層に置き換える。
- 参考スコア(独自算出の注目度): 14.703504288452976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are increasingly attractive for multimodal quality assessment, but their default reliance on autoregressive text generation and dynamic visual processing is poorly matched to scalar regression under strict latency budgets. We present a bounded-compute adaptation of SmolVLM2-256M-Video-Instruct for product-rating prediction in the LoViF 2026 Efficient VLM challenge. Motivated by recent multimodal engagement-prediction results showing that feature-based regression can outperform token-based score generation, we replace the language-modeling head with a lightweight two-layer MLP fed by pooled decoder states, and we enforce deterministic inputs through fixed 384x384 images and truncated metadata. Across controlled ablations, static global image processing slightly outperforms dynamic tiling, and scaling from 100K to 16M training examples substantially improves validation correlation. Under the official held-out evaluation, our 228M-parameter model achieves 0.39 PLCC and 0.40 CES, providing a strong and reproducible baseline for resource-constrained multimodal regression.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルな品質評価においてますます魅力的になっているが、そのデフォルトは自動回帰テキスト生成と動的ビジュアル処理に依存しており、厳格な遅延予算下でのスカラー回帰とはあまり一致しない。
本稿では,LoViF 2026 の効率的な VLM チャレンジにおいて,製品価格予測のための SmolVLM2-256M-Video-Instruct の有界適応について述べる。
最近のマルチモーダルエンゲージメント予測の結果から、特徴に基づく回帰はトークンベースのスコア生成を上回り、言語モデリングヘッドをプールされたデコーダ状態によって供給される軽量な2層MLPに置き換え、固定された384x384画像とトランクされたメタデータを通じて決定論的入力を実行する。
制御されたアブレーション全体にわたって、静的なグローバル画像処理は動的タイリングをわずかに上回り、100Kから16Mのトレーニング例のスケーリングはバリデーションの相関を大幅に改善する。
公式評価では、228Mパラメーターモデルが0.39 PLCCと0.40 CESを達成し、リソース制約によるマルチモーダルレグレッションの強力な再現可能なベースラインを提供する。
関連論文リスト
- Max-pooling Network Revisited: Analyzing the Role of Semantic Probability in Multiple Instance Learning for Hallucination Detection [31.935824861650005]
幻覚検出は、大規模言語モデルの信頼性を向上させるためにますます重要になっている。
近年,MIL(Multiple Instance Learning)による内部モデル状態とセマンティック一貫性を組み合わせたHaMIのようなハイブリッドアプローチが,最先端のパフォーマンスを実現している。
本研究では,まず,決定マージンの観点からHaMIの理論的解析を行い,内部状態を意味的整合性で拡張すると決定マージンが大きくなることを示した。
論文 参考訳(メタデータ) (2026-05-09T10:30:30Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。