論文の概要: Visual Recipe Flow: A Dataset for Learning Visual State Changes of
Objects with Recipe Flows
- arxiv url: http://arxiv.org/abs/2209.05840v1
- Date: Tue, 13 Sep 2022 09:38:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:10:39.538902
- Title: Visual Recipe Flow: A Dataset for Learning Visual State Changes of
Objects with Recipe Flows
- Title(参考訳): Visual Recipe Flow: 準備フローによるオブジェクトの状態変化を学習するためのデータセット
- Authors: Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko,
Shuhei Kurita, Yoshitaka Ushiku, Shinsuke Mori
- Abstract要約: 我々はVisual Recipe Flowと呼ばれる新しいマルチモーダルデータセットを提案する。
データセットは、オブジェクトの状態変化とレシピテキストのワークフローで構成される。
私たちのデータセットでは、マルチモーダルコモンセンス推論や手続き的テキスト生成など、さまざまなアプリケーションを試すことができます。
- 参考スコア(独自算出の注目度): 24.680329690420315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new multimodal dataset called Visual Recipe Flow, which enables
us to learn each cooking action result in a recipe text. The dataset consists
of object state changes and the workflow of the recipe text. The state change
is represented as an image pair, while the workflow is represented as a recipe
flow graph (r-FG). The image pairs are grounded in the r-FG, which provides the
cross-modal relation. With our dataset, one can try a range of applications,
from multimodal commonsense reasoning and procedural text generation.
- Abstract(参考訳): 我々は、レシピテキストでそれぞれの調理行動結果を学ぶことができるVisual Recipe Flowと呼ばれる新しいマルチモーダルデータセットを提案する。
データセットはオブジェクトの状態変化とレシピテキストのワークフローで構成される。
状態変化はイメージペアとして表現され、ワークフローはレシピフローグラフ(r-FG)として表現される。
画像ペアはr-fgで接地され、交叉モーダル関係を提供する。
私たちのデータセットでは、マルチモーダルコモンセンス推論や手続きテキスト生成など、さまざまなアプリケーションを試すことができます。
関連論文リスト
- FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - Unsupervised Learning of Graph from Recipes [8.410402833223364]
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。
テキストを1つのシーケンスで符号化する$mathsfGNN$のグラフ構造とパラメータを反復的に学習する。
同定されたエンティティを注釈付きデータセットと比較し、入力テキストと出力テキストの差を比較し、生成したグラフとアートメソッドの状態から生成されたグラフを比較して、アプローチを評価する。
論文 参考訳(メタデータ) (2024-01-22T16:25:47Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Recipe2Vec: Multi-modal Recipe Representation Learning with Graph Neural
Networks [23.378813327724686]
マルチモーダルなレシピ表現学習の問題を形式化し、視覚的、テキスト的、リレーショナルな情報をレシピの埋め込みに統合する。
まず、50万以上のノードを持つ新しいレシピグラフデータであるLarge-RGを紹介した。
次に、新しいグラフニューラルネットワークに基づくレシピ埋め込みモデルであるRecipe2Vecを提案し、マルチモーダル情報をキャプチャする。
論文 参考訳(メタデータ) (2022-05-24T23:04:02Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。
対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。
我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文 参考訳(メタデータ) (2020-09-24T00:35:26Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。