論文の概要: A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks
- arxiv url: http://arxiv.org/abs/2005.09606v1
- Date: Tue, 19 May 2020 17:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:57:07.131725
- Title: A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks
- Title(参考訳): シーケンシャルタスクのためのマルチモーダルアライメントデータセット作成のためのレシピ
- Authors: Angela S. Lin, Sudha Rao, Asli Celikyilmaz, Elnaz Nouri, Chris
Brockett, Debadeepta Dey, Bill Dolan
- Abstract要約: 調理領域では、ウェブは、同じ料理を作る方法を記述したテキストとビデオのレシピを多数提供している。
我々は、同じ料理の異なるレシピの指示間のペアワイズアライメントを学習する教師なしアライメントアルゴリズムを使用する。
次に、グラフアルゴリズムを用いて、同じ料理のための複数のテキストと複数のビデオレシピの協調的なアライメントを導出する。
- 参考スコア(独自算出の注目度): 48.39191088844315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many high-level procedural tasks can be decomposed into sequences of
instructions that vary in their order and choice of tools. In the cooking
domain, the web offers many partially-overlapping text and video recipes (i.e.
procedures) that describe how to make the same dish (i.e. high-level task).
Aligning instructions for the same dish across different sources can yield
descriptive visual explanations that are far richer semantically than
conventional textual instructions, providing commonsense insight into how
real-world procedures are structured. Learning to align these different
instruction sets is challenging because: a) different recipes vary in their
order of instructions and use of ingredients; and b) video instructions can be
noisy and tend to contain far more information than text instructions. To
address these challenges, we first use an unsupervised alignment algorithm that
learns pairwise alignments between instructions of different recipes for the
same dish. We then use a graph algorithm to derive a joint alignment between
multiple text and multiple video recipes for the same dish. We release the
Microsoft Research Multimodal Aligned Recipe Corpus containing 150K pairwise
alignments between recipes across 4,262 dishes with rich commonsense
information.
- Abstract(参考訳): 多くのハイレベルな手続きタスクは、その順序やツールの選択によって異なる命令列に分解することができる。
調理領域では、Webは、同じ料理(すなわちハイレベルなタスク)を作る方法を記述したテキストとビデオのレシピ(すなわちプロシージャ)を多数提供している。
異なるソースにまたがる同じ料理の指示を調整することで、従来のテキストの指示よりもはるかに豊かな説明的な視覚的説明が得られる。
これらの異なる命令セットを整列させる学習は困難です
a) 異なるレシピは,指示の順序及び具材の使用によって異なります。
b) 映像指示は,うるさく,テキスト指示よりもはるかに多くの情報を含む傾向がある。
これらの課題に対処するために、まず、異なるレシピの命令間のペアアライメントを学習する教師なしアライメントアルゴリズムを使用する。
次に、グラフアルゴリズムを使用して、同一料理の複数のテキストと複数のビデオレシピの結合アライメントを導出する。
Microsoft Research Multimodal Aligned Recipe Corpusには,4,262料理のレシピ間で150Kのペアのアライメントと,豊富なコモンセンス情報が含まれている。
関連論文リスト
- PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes [7.839338724237275]
レシピを効果的に推論するモデルは、レシピ内の中間ステップの入力と出力を正確に識別し、理解する必要がある。
そこで本研究では,各工程の入力と出力を記述した中間ステップを記述した料理レシピの新たなコーパスを提案する。
論文 参考訳(メタデータ) (2024-01-12T23:33:01Z) - Towards End-User Development for IoT: A Case Study on Semantic Parsing
of Cooking Recipes for Programming Kitchen Devices [4.863892359772122]
キッチン内のIoTデバイスに対して,調理レシピの指示から機械的に理解可能なコマンドへの変換を支援することを目的とした,ユニークなコーパスを提供する。
このコーパスに基づいて、条件付きランダムフィールド(CRF)とニューラルネットワークモデルを用いた機械学習に基づくシーケンスラベリング手法を開発した。
その結果、アノテーションに基づいて意味論を訓練することは可能であるが、ほとんどの自然言語命令は不完全であり、形式的な意味表現に変換することは簡単ではないことがわかった。
論文 参考訳(メタデータ) (2023-09-25T14:21:24Z) - 50 Ways to Bake a Cookie: Mapping the Landscape of Procedural Texts [15.185745028886648]
本稿では,複数の手続きテキストを直感的なグラフ表現に要約するための教師なし学習手法を提案する。
我々は、手続き的テキストの顕著な例であるレシピについて、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2022-10-31T11:41:54Z) - Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。