論文の概要: PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes
- arxiv url: http://arxiv.org/abs/2401.06930v2
- Date: Thu, 10 Oct 2024 11:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:47.553288
- Title: PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes
- Title(参考訳): PizzaCommonSense:調理レシピにおける中間ステップに関するコモンセンス推論のモデル化
- Authors: Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller,
- Abstract要約: レシピを効果的に推論するモデルは、レシピ内の中間ステップの入力と出力を正確に識別し、理解する必要がある。
そこで本研究では,各工程の入力と出力を記述した中間ステップを記述した料理レシピの新たなコーパスを提案する。
- 参考スコア(独自算出の注目度): 7.839338724237275
- License:
- Abstract: Understanding procedural texts, such as cooking recipes, is essential for enabling machines to follow instructions and reason about tasks, a key aspect of intelligent reasoning. In cooking, these instructions can be interpreted as a series of modifications to a food preparation. For a model to effectively reason about cooking recipes, it must accurately discern and understand the inputs and outputs of intermediate steps within the recipe. We present a new corpus of cooking recipes enriched with descriptions of intermediate steps that describe the input and output for each step. PizzaCommonsense serves as a benchmark for the reasoning capabilities of LLMs because it demands rigorous explicit input-output descriptions to demonstrate the acquisition of implicit commonsense knowledge, which is unlikely to be easily memorized. GPT-4 achieves only 26\% human-evaluated preference for generations, leaving room for future improvements.
- Abstract(参考訳): 調理レシピなどの手続き的テキストを理解することは、機械が指示やタスクについての推論に従うことを可能にするために不可欠であり、これは知的な推論の重要な側面である。
料理においては、これらの指示は食品準備の一連の修正と解釈できる。
モデルがレシピを効果的に推論するためには、レシピ内の中間ステップの入力と出力を正確に識別し、理解する必要がある。
そこで本研究では,各工程の入力と出力を記述した中間ステップを記述した料理レシピの新たなコーパスを提案する。
PizzaCommonsenseは暗黙のコモンセンス知識の獲得を実証するために厳密な明示的なインプットアウトプット記述を必要とするため、LLMの推論能力のベンチマークとして機能する。
GPT-4は、世代ごとに評価された好みをわずか26 %しか達成せず、将来の改善の余地を残している。
関連論文リスト
- Large Language Models as Sous Chefs: Revising Recipes with GPT-3 [56.7155146252028]
我々は、複雑で多様で広く使われている指示の例としてレシピに焦点を当てている。
我々は、レシピと材料リストに基づいたプロンプトを開発し、レシピをより単純なステップに分解する。
また,レシピリビジョンの品質の人的判断を収集しながら,疲労軽減を念頭に設計したAmazon Mechanical Turkタスクにも貢献する。
論文 参考訳(メタデータ) (2023-06-24T14:42:43Z) - A Graphical Formalism for Commonsense Reasoning with Recipes [3.271550784789976]
コンベチブル(インディエント、中間食品、最終製品)をキャプチャするグラフィカルな形式化を提案する。
次に,レシピの比較,レシピのサブレシピからの合成,レシピをサブレシピに分解するための公式な定義を提案する。
また, 食材が不足している場合, あるいはいくつかの動作が不可能であったり, 最終製品を変更する必要があるため, レシピに置き換える公式な定義を2つ導入し比較する。
論文 参考訳(メタデータ) (2023-06-15T11:04:30Z) - KitchenScale: Learning to predict ingredient quantities from recipe
contexts [13.001618172288198]
KitchenScaleは、レシピのコンテキストからターゲットの材料量と測定単位を予測するモデルである。
本稿では,成分測定型分類,単位分類,量回帰タスクの3つのサブタスクからなる成分量予測タスクを定式化する。
新たに構築したデータセットとレコメンデーションの例での実験では、さまざまなレシピコンテキストに対するKitchenScaleの理解が示されています。
論文 参考訳(メタデータ) (2023-04-21T04:28:16Z) - Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - A Rich Recipe Representation as Plan to Support Expressive Multi Modal
Queries on Recipe Content and Preparation Process [24.94173789568803]
機械理解可能なリッチレシピ表現(R3)の構築について論じる。
R3には、アレルゲンに関する情報や成分のイメージなどの追加の知識が注がれている。
また,レシピ検索ツールであるTREATをR3を用いて,レシピの内容に対するマルチモーダル推論を行う。
論文 参考訳(メタデータ) (2022-03-31T15:29:38Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks [48.39191088844315]
調理領域では、ウェブは、同じ料理を作る方法を記述したテキストとビデオのレシピを多数提供している。
我々は、同じ料理の異なるレシピの指示間のペアワイズアライメントを学習する教師なしアライメントアルゴリズムを使用する。
次に、グラフアルゴリズムを用いて、同じ料理のための複数のテキストと複数のビデオレシピの協調的なアライメントを導出する。
論文 参考訳(メタデータ) (2020-05-19T17:27:00Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。