論文の概要: Structured Vision-Language Pretraining for Computational Cooking
- arxiv url: http://arxiv.org/abs/2212.04267v1
- Date: Thu, 8 Dec 2022 13:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:08:17.565610
- Title: Structured Vision-Language Pretraining for Computational Cooking
- Title(参考訳): 計算調理のための構造化視覚言語事前学習
- Authors: Mustafa Shukor, Nicolas Thome, Matthieu Cord
- Abstract要約: Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
- 参考スコア(独自算出の注目度): 54.0571416522547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pretraining (VLP) and Foundation models have been the go-to
recipe for achieving SoTA performance on general benchmarks. However,
leveraging these powerful techniques for more complex vision-language tasks,
such as cooking applications, with more structured input data, is still little
investigated. In this work, we propose to leverage these techniques for
structured-text based computational cuisine tasks. Our strategy, dubbed VLPCook
(Structured Vision-Language Pretraining for Computational Cooking), first
transforms existing image-text pairs to image and structured-text pairs. This
allows to pretrain our VLPCook model using VLP objectives adapted to the
strutured data of the resulting datasets, then finetuning it on downstream
computational cooking tasks. During finetuning, we also enrich the visual
encoder, leveraging pretrained foundation models (e.g. CLIP) to provide local
and global textual context. VLPCook outperforms current SoTA by a significant
margin (+3.3 Recall@1 absolute improvement) on the task of Cross-Modal Food
Retrieval on the large Recipe1M dataset. Finally, we conduct further
experiments on VLP to validate their importance, especially on the Recipe1M+
dataset. The code will be made publicly available.
- Abstract(参考訳): vision-language pretraining (vlp) と foundation model は、一般的なベンチマークで sota のパフォーマンスを達成するためのレシピである。
しかし、より構造化された入力データを持つ料理アプリケーションのような複雑な視覚言語タスクにこれらの強力な技術を活用することは、まだほとんど調査されていない。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
VLPCook(Structured Vision-Language Pretraining for Computational Cooking)と呼ばれる私たちの戦略は、まず既存の画像テキストペアを画像と構造化テキストペアに変換する。
これにより、VLPCookモデルを、結果のデータセットの構造化データに適合したVLP目標を使用して事前トレーニングし、下流の計算調理タスクで微調整することができます。
微調整中、私たちはビジュアルエンコーダを充実させ、事前訓練された基礎モデル(例えばCLIP)を利用して、ローカルおよびグローバルなテキストコンテキストを提供する。
VLPCookは、大規模なRecipe1Mデータセット上でのCross-Modal Food Retrievalのタスクにおいて、現在のSoTAよりも大きなマージン(+3.3 Recall@1絶対改善)を達成している。
最後に、VLPのさらなる実験を行い、特にRecipe1M+データセットでその重要性を検証する。
コードは公開される予定だ。
関連論文リスト
- DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness [58.40419742596087]
PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。