論文の概要: Structured Vision-Language Pretraining for Computational Cooking
- arxiv url: http://arxiv.org/abs/2212.04267v1
- Date: Thu, 8 Dec 2022 13:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:08:17.565610
- Title: Structured Vision-Language Pretraining for Computational Cooking
- Title(参考訳): 計算調理のための構造化視覚言語事前学習
- Authors: Mustafa Shukor, Nicolas Thome, Matthieu Cord
- Abstract要約: Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
- 参考スコア(独自算出の注目度): 54.0571416522547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pretraining (VLP) and Foundation models have been the go-to
recipe for achieving SoTA performance on general benchmarks. However,
leveraging these powerful techniques for more complex vision-language tasks,
such as cooking applications, with more structured input data, is still little
investigated. In this work, we propose to leverage these techniques for
structured-text based computational cuisine tasks. Our strategy, dubbed VLPCook
(Structured Vision-Language Pretraining for Computational Cooking), first
transforms existing image-text pairs to image and structured-text pairs. This
allows to pretrain our VLPCook model using VLP objectives adapted to the
strutured data of the resulting datasets, then finetuning it on downstream
computational cooking tasks. During finetuning, we also enrich the visual
encoder, leveraging pretrained foundation models (e.g. CLIP) to provide local
and global textual context. VLPCook outperforms current SoTA by a significant
margin (+3.3 Recall@1 absolute improvement) on the task of Cross-Modal Food
Retrieval on the large Recipe1M dataset. Finally, we conduct further
experiments on VLP to validate their importance, especially on the Recipe1M+
dataset. The code will be made publicly available.
- Abstract(参考訳): vision-language pretraining (vlp) と foundation model は、一般的なベンチマークで sota のパフォーマンスを達成するためのレシピである。
しかし、より構造化された入力データを持つ料理アプリケーションのような複雑な視覚言語タスクにこれらの強力な技術を活用することは、まだほとんど調査されていない。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
VLPCook(Structured Vision-Language Pretraining for Computational Cooking)と呼ばれる私たちの戦略は、まず既存の画像テキストペアを画像と構造化テキストペアに変換する。
これにより、VLPCookモデルを、結果のデータセットの構造化データに適合したVLP目標を使用して事前トレーニングし、下流の計算調理タスクで微調整することができます。
微調整中、私たちはビジュアルエンコーダを充実させ、事前訓練された基礎モデル(例えばCLIP)を利用して、ローカルおよびグローバルなテキストコンテキストを提供する。
VLPCookは、大規模なRecipe1Mデータセット上でのCross-Modal Food Retrievalのタスクにおいて、現在のSoTAよりも大きなマージン(+3.3 Recall@1絶対改善)を達成している。
最後に、VLPのさらなる実験を行い、特にRecipe1M+データセットでその重要性を検証する。
コードは公開される予定だ。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Leveraging Vision-Language Foundation Models for Fine-Grained Downstream
Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。
本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-07-13T15:05:34Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。