論文の概要: Efficient Image Gallery Representations at Scale Through Multi-Task
Learning
- arxiv url: http://arxiv.org/abs/2005.09027v3
- Date: Fri, 24 Jul 2020 10:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:32:19.651271
- Title: Efficient Image Gallery Representations at Scale Through Multi-Task
Learning
- Title(参考訳): マルチタスク学習による大規模画像ギャラリー表現の効率化
- Authors: Benjamin Gutelman and Pavel Levin
- Abstract要約: 画像ギャラリーは、多くのレコメンデーションおよび検索アプリケーションで活用できる製品に関する豊富な情報ソースを提供する。
マルチタスク学習(MTL)アプローチによるユニバーサル画像ギャラリーエンコーダ構築の問題について検討し,新たな下流タスクへの学習表現の一般化を実現するための実践的な方法であることを実証する。
- 参考スコア(独自算出の注目度): 5.457150493905064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image galleries provide a rich source of diverse information about a product
which can be leveraged across many recommendation and retrieval applications.
We study the problem of building a universal image gallery encoder through
multi-task learning (MTL) approach and demonstrate that it is indeed a
practical way to achieve generalizability of learned representations to new
downstream tasks. Additionally, we analyze the relative predictive performance
of MTL-trained solutions against optimal and substantially more expensive
solutions, and find signals that MTL can be a useful mechanism to address
sparsity in low-resource binary tasks.
- Abstract(参考訳): 画像ギャラリーは、多くのレコメンデーションや検索アプリケーションで活用できる製品に関する多様な情報の豊富な情報源を提供する。
マルチタスク学習(MTL)アプローチによるユニバーサル画像ギャラリーエンコーダ構築の問題について検討し,新たな下流タスクへの学習表現の一般化を実現するための実践的な方法であることを実証する。
さらに,MTLが学習したソリューションの相対的性能を,最適で高コストなソリューションに対して解析し,MTLが低リソースのバイナリタスクにおけるスパーシリティに対処する有用なメカニズムであることを示す。
関連論文リスト
- SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。
我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。
SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T10:21:21Z) - Generalizable and Robust Spectral Method for Multi-view Representation Learning [9.393841121141076]
近年,多視点表現学習 (MvRL) が注目されている。
グラフラプラシアンベースのMvRL法は、マルチビューデータの表現に顕著な成功を収めた。
本稿では,グラフラプラシアン手法の強みを深層学習の力と統合した,新しい融合ベースのフレームワークであるtextitSpecRaGE$を紹介する。
論文 参考訳(メタデータ) (2024-11-04T14:51:35Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-Task Cooperative Learning via Searching for Flat Minima [8.835287696319641]
本稿では,MTLを多段最適化問題として定式化し,各タスクから協調的なアプローチで特徴を学習させることを提案する。
具体的には、他のタスクの学習したサブモデルを利用する代わりに、各タスクのサブモデルを更新する。
最適化時の負の伝達問題を緩和するため、現在の目的関数に対する平坦な最小値を求める。
論文 参考訳(メタデータ) (2023-09-21T14:00:11Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。