論文の概要: Efficient Learning for Product Attributes with Compact Multimodal Models
- arxiv url: http://arxiv.org/abs/2507.19679v1
- Date: Fri, 25 Jul 2025 21:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.95773
- Title: Efficient Learning for Product Attributes with Compact Multimodal Models
- Title(参考訳): 小型マルチモーダルモデルによる製品属性の効率的な学習
- Authors: Mandar Kulkarni,
- Abstract要約: 電子商取引における画像ベースの製品予測は多くのアプリケーションにおいて重要な課題である。
本稿では,ラベル付き製品リストを利用するラベル効率の高い半教師付き微調整戦略について検討する。
実験により、DPOトレーニングによる精度はラベルのないデータにより向上し、ラベルのないサンプルの大きなプールを効果的に活用してパフォーマンスを向上させることが示されている。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-based product attribute prediction in e-commerce is a crucial task with numerous applications. The supervised fine-tuning of Vision Language Models (VLMs) faces significant scale challenges due to the cost of manual or API based annotation. In this paper, we investigate label-efficient semi-supervised fine-tuning strategies for compact VLMs (2B-3B parameters) that leverage unlabeled product listings through Direct Preference Optimization (DPO). Beginning with a small, API-based, annotated, and labeled set, we first employ PEFT to train low-rank adapter modules. To update the adapter weights with unlabeled data, we generate multiple reasoning-and-answer chains per unlabeled sample and segregate these chains into preferred and dispreferred based on self-consistency. We then fine-tune the model with DPO loss and use the updated model for the next iteration. By using PEFT fine-tuning with DPO, our method achieves efficient convergence with minimal compute overhead. On a dataset spanning twelve e-commerce verticals, DPO-based fine-tuning, which utilizes only unlabeled data, demonstrates a significant improvement over the supervised model. Moreover, experiments demonstrate that accuracy with DPO training improves with more unlabeled data, indicating that a large pool of unlabeled samples can be effectively leveraged to improve performance.
- Abstract(参考訳): 電子商取引における画像ベースの製品属性予測は多くのアプリケーションにおいて重要な課題である。
VLM(Vision Language Models)の教師付き微調整は、手動やAPIベースのアノテーションのコストが原因で、大きな課題に直面している。
本稿では,DPO(Direct Preference Optimization)を通じてラベル付けされていない製品のリストを利用する,コンパクトなVLM(2B-3Bパラメータ)のラベル効率の高い半教師付き微調整戦略について検討する。
小さい、APIベースの、注釈付き、ラベル付きセットから始めて、PEFTを使って低ランクのアダプタモジュールをトレーニングします。
ラベルなしデータを用いてアダプタの重みを更新するため、ラベルなしサンプル毎に複数の推論・問合せチェーンを生成し、自己整合性に基づいてこれらのチェーンを優先的かつ非推奨に分離する。
次に、DPO損失でモデルを微調整し、更新されたモデルを次のイテレーションに使用します。
DPOを用いたPEFT微調整により,計算オーバーヘッドを最小限に抑え,効率的な収束を実現する。
12のeコマース分野にまたがるデータセットでは、ラベルなしデータのみを利用するDPOベースの微調整が、教師付きモデルよりも大幅に改善されていることを示す。
さらに、DPOトレーニングによる精度は、ラベルのないデータによって向上し、ラベルのないサンプルの大きなプールを効果的に活用してパフォーマンスを向上させることができることを示す実験も行われた。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。
SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-12T12:53:30Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。