論文の概要: How Does India Cook Biryani?
- arxiv url: http://arxiv.org/abs/2601.06198v1
- Date: Thu, 08 Jan 2026 07:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.672426
- Title: How Does India Cook Biryani?
- Title(参考訳): インドはどうやってビリャーニを料理するのか?
- Authors: Shubham Goel, Farzana S, C V Rishi, Aditya Arun, C V Jawahar,
- Abstract要約: この研究は、ビリャーニ準備ビデオの最初の大規模、キュレートされたデータセットを提示する。
視覚言語モデル(VLM)を用いて、動画を細かな手続き単位に分割し、音声の書き起こしや標準レシピテキストと整合させる。
地域差の手続き的差異を自動的に識別し,説明するビデオ比較パイプラインを構築した。
- 参考スコア(独自算出の注目度): 12.79620821487817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biryani, one of India's most celebrated dishes, exhibits remarkable regional diversity in its preparation, ingredients, and presentation. With the growing availability of online cooking videos, there is unprecedented potential to study such culinary variations using computational tools systematically. However, existing video understanding methods fail to capture the fine-grained, multimodal, and culturally grounded differences in procedural cooking videos. This work presents the first large-scale, curated dataset of biryani preparation videos, comprising 120 high-quality YouTube recordings across 12 distinct regional styles. We propose a multi-stage framework leveraging recent advances in vision-language models (VLMs) to segment videos into fine-grained procedural units and align them with audio transcripts and canonical recipe text. Building on these aligned representations, we introduce a video comparison pipeline that automatically identifies and explains procedural differences between regional variants. We construct a comprehensive question-answer (QA) benchmark spanning multiple reasoning levels to evaluate procedural understanding in VLMs. Our approach employs multiple VLMs in complementary roles, incorporates human-in-the-loop verification for high-precision tasks, and benchmarks several state-of-the-art models under zero-shot and fine-tuned settings. The resulting dataset, comparison methodology, and QA benchmark provide a new testbed for evaluating VLMs on structured, multimodal reasoning tasks and open new directions for computational analysis of cultural heritage through cooking videos. We release all data, code, and the project website at https://farzanashaju.github.io/how-does-india-cook-biryani/.
- Abstract(参考訳): ビリャーニはインドで最も有名な料理の一つで、調理、食材、プレゼンテーションで顕著な地域的な多様性を示している。
オンライン料理ビデオの普及に伴い、このような料理のバリエーションを計算ツールを用いて体系的に研究する可能性は前代未聞である。
しかし、既存のビデオ理解手法では、手続き的調理ビデオの細粒度、マルチモーダル、文化的背景の違いを捉えることができない。
この研究は、12の異なる地域スタイルにわたる120の高品質なYouTube録画を含む、ビリャーニ準備ビデオの最初の大規模、キュレートされたデータセットを提示する。
本稿では、視覚言語モデル(VLM)の最近の進歩を活用して、動画を細かな手続き単位に分割し、音声書き起こしや標準レシピテキストと整合させる多段階フレームワークを提案する。
これらの整列表現に基づいてビデオ比較パイプラインを導入し,地域差分間の手続き的差異を自動的に識別し,説明する。
VLMの手続き的理解を評価するために,複数の推論レベルにまたがる包括的質問応答(QA)ベンチマークを構築した。
提案手法では,複数のVLMを相補的な役割に採用し,高精度なタスクにHuman-in-the-loop検証を導入し,ゼロショットおよび微調整条件下でいくつかの最先端モデルをベンチマークする。
得られたデータセット、比較手法、およびQAベンチマークは、構造化されたマルチモーダル推論タスク上でのVLMを評価するための新しいテストベッドを提供し、料理ビデオを通して文化遺産の計算的分析のための新しい方向を開く。
すべてのデータ、コード、プロジェクトのWebサイトをhttps://farzanashaju.github.io/how-does-india-cook-biryani/で公開しています。
関連論文リスト
- COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark [13.623338371949337]
スマートフォンで撮影した未編集のオーバヘッドビュービデオからなる新しいデータセットであるCOM Kitchensを提案する。
未編集のオーバヘッドビュービデオ(DVC-OV)上の新しいビデオ検索タスクOnRRと新しいビデオキャプションドメインDense Video Captioningを提案する。
本実験は,現在のWebビデオベースSOTA方式のタスク処理能力と限界を検証した。
論文 参考訳(メタデータ) (2024-08-05T07:00:10Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks [48.39191088844315]
調理領域では、ウェブは、同じ料理を作る方法を記述したテキストとビデオのレシピを多数提供している。
我々は、同じ料理の異なるレシピの指示間のペアワイズアライメントを学習する教師なしアライメントアルゴリズムを使用する。
次に、グラフアルゴリズムを用いて、同じ料理のための複数のテキストと複数のビデオレシピの協調的なアライメントを導出する。
論文 参考訳(メタデータ) (2020-05-19T17:27:00Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z) - Comprehensive Instructional Video Analysis: The COIN Dataset and
Performance Evaluation [100.68317848808327]
包括的インストラクショナルビデオ解析のための大規模データセット「COIN」を提案する。
COINデータセットには、日々の生活に関連する12の領域で180のタスクの11,827の動画が含まれている。
新しい開発ツールボックスでは、すべてのビデオに一連のステップラベルと対応する時間境界がアノテートされる。
論文 参考訳(メタデータ) (2020-03-20T16:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。