Fugu-MT 論文翻訳(概要): Structured Vision-Language Pretraining for Computational Cooking

論文の概要: Structured Vision-Language Pretraining for Computational Cooking

arxiv url: http://arxiv.org/abs/2212.04267v1
Date: Thu, 8 Dec 2022 13:37:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 15:08:17.565610
Title: Structured Vision-Language Pretraining for Computational Cooking
Title（参考訳）: 計算調理のための構造化視覚言語事前学習
Authors: Mustafa Shukor, Nicolas Thome, Matthieu Cord
Abstract要約: Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
参考スコア（独自算出の注目度）: 54.0571416522547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Pretraining (VLP) and Foundation models have been the go-to recipe for achieving SoTA performance on general benchmarks. However, leveraging these powerful techniques for more complex vision-language tasks, such as cooking applications, with more structured input data, is still little investigated. In this work, we propose to leverage these techniques for structured-text based computational cuisine tasks. Our strategy, dubbed VLPCook (Structured Vision-Language Pretraining for Computational Cooking), first transforms existing image-text pairs to image and structured-text pairs. This allows to pretrain our VLPCook model using VLP objectives adapted to the strutured data of the resulting datasets, then finetuning it on downstream computational cooking tasks. During finetuning, we also enrich the visual encoder, leveraging pretrained foundation models (e.g. CLIP) to provide local and global textual context. VLPCook outperforms current SoTA by a significant margin (+3.3 Recall@1 absolute improvement) on the task of Cross-Modal Food Retrieval on the large Recipe1M dataset. Finally, we conduct further experiments on VLP to validate their importance, especially on the Recipe1M+ dataset. The code will be made publicly available.
Abstract（参考訳）: vision-language pretraining (vlp) と foundation model は、一般的なベンチマークで sota のパフォーマンスを達成するためのレシピである。しかし、より構造化された入力データを持つ料理アプリケーションのような複雑な視覚言語タスクにこれらの強力な技術を活用することは、まだほとんど調査されていない。本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。 VLPCook(Structured Vision-Language Pretraining for Computational Cooking)と呼ばれる私たちの戦略は、まず既存の画像テキストペアを画像と構造化テキストペアに変換する。これにより、VLPCookモデルを、結果のデータセットの構造化データに適合したVLP目標を使用して事前トレーニングし、下流の計算調理タスクで微調整することができます。微調整中、私たちはビジュアルエンコーダを充実させ、事前訓練された基礎モデル(例えばCLIP)を利用して、ローカルおよびグローバルなテキストコンテキストを提供する。 VLPCookは、大規模なRecipe1Mデータセット上でのCross-Modal Food Retrievalのタスクにおいて、現在のSoTAよりも大きなマージン(+3.3 Recall@1絶対改善)を達成している。最後に、VLPのさらなる実験を行い、特にRecipe1M+データセットでその重要性を検証する。コードは公開される予定だ。

関連論文リスト

FOR: Finetuning for Object Level Open Vocabulary Image Retrieval [1.0650780147044159]
我々は、オブジェクト中心のオープン語彙画像検索のためのファインタニングを提案し、クローズドセットラベルを用いてターゲットデータセットのファインタニングを可能にする。 FORは、意図したタスク用にカスタマイズされたCLIPヘッドの特別なデコーダ版と、多言語トレーニングフレームワーク内の結合という2つの設計要素に基づいている。
論文参考訳（メタデータ） (2024-12-25T07:08:51Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。当社のアプローチは,3つの重要な側面に基づいて構成されています。実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文参考訳（メタデータ） (2024-03-08T18:46:00Z)
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文参考訳（メタデータ） (2024-02-18T19:26:49Z)
Leveraging Vision-Language Foundation Models for Fine-Grained Downstream Tasks [17.367599062853156]
CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
論文参考訳（メタデータ） (2023-07-13T15:05:34Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Weakly Supervised Vision-and-Language Pre-training with Relative Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文参考訳（メタデータ） (2023-05-24T18:10:24Z)
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-23T12:51:20Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
Exploiting the Textual Potential from Vision-Language Pre-training for Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文参考訳（メタデータ） (2023-03-08T10:41:22Z)
A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。 VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文参考訳（メタデータ） (2022-02-01T22:54:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。