論文の概要: FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images
- arxiv url: http://arxiv.org/abs/2604.14388v2
- Date: Fri, 17 Apr 2026 01:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.383804
- Title: FoodSense: A Multisensory Food Dataset and Benchmark for Predicting Taste, Smell, Texture, and Sound from Images
- Title(参考訳): FoodSense: 味、匂い、テクスチャ、音を画像から予測するための多感覚食品データセットとベンチマーク
- Authors: Sabab Ishraq, Aarushi Aarushi, Juncai Jiang, Chen Chen,
- Abstract要約: クロスセンサー推論のための人間アノテーション付きデータセットであるFoodSenseを紹介する。
大きな言語モデルは、画像、評価、記述子に条件付けされた視覚的正当化を生成する。
視覚言語ベンチマークモデルであるFoodSense-VLをトレーニングして,多感的評価と根拠的説明の両方を生成する。
- 参考スコア(独自算出の注目度): 2.904336356829345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans routinely infer taste, smell, texture, and even sound from food images a phenomenon well studied in cognitive science. However, prior vision language research on food has focused primarily on recognition tasks such as meal identification, ingredient detection, and nutrition estimation. Image-based prediction of multisensory experience remains largely unexplored. We introduce FoodSense, a human-annotated dataset for cross-sensory inference containing 66,842 participant-image pairs across 2,987 unique food images. Each pair includes numeric ratings (1-5) and free-text descriptors for four sensory dimensions: taste, smell, texture, and sound. To enable models to both predict and explain sensory expectations, we expand short human annotations into image-grounded reasoning traces. A large language model generates visual justifications conditioned on the image, ratings, and descriptors. Using these annotations, we train FoodSense-VL, a vision language benchmark model to produce both multisensory ratings and grounded explanations directly from food images. This work connects cognitive science findings on cross-sensory perception with modern instruction tuning for multimodal models and shows that many popular evaluation metrics are insufficient for visually sensory inference.
- Abstract(参考訳): 人間は日常的に、食品画像から味、匂い、テクスチャ、さらには音を推測する。
しかしながら、食品に関する先進的な視覚言語研究は、食事の識別、食材検出、栄養推定などの認識タスクに重点を置いている。
画像に基づくマルチ感覚体験の予測は、まだほとんど探索されていない。
我々は,2,987個のユニークな食品画像に対して66,842対の参加者像を含む,クロスセンサー推論のための人間アノテーション付きデータセットであるFoodSenseを紹介した。
それぞれのペアには、味、匂い、テクスチャ、音の4つの感覚次元に対する数値評価(1-5)と自由テキスト記述子が含まれている。
モデルが知覚期待を予測し、説明できるようにするため、短い人間のアノテーションを画像上の推論トレースに拡張する。
大きな言語モデルは、画像、評価、記述子に条件付けされた視覚的正当化を生成する。
これらのアノテーションを用いて、視覚言語ベンチマークモデルであるFoodSense-VLをトレーニングし、食品画像から直接多感覚評価とグラウンドド説明を生成する。
本研究は, クロス感覚知覚に関する認知科学的な知見と, マルチモーダルモデルのための現代的指導指導とを結びつけ, 視覚的知覚推論には多くの一般的な評価指標が不十分であることを示す。
関連論文リスト
- Human-level 3D shape perception emerges from multi-view learning [63.048728487674815]
任意のオブジェクトに対する人間の3次元形状推論を予測するためのモデリングフレームワークを開発する。
我々は、自然主義的な知覚データよりも視覚空間的目的を用いて訓練された新しいニューラルネットワークのクラスでこれを達成した。
人間のレベル3D知覚は、自然主義的な視覚空間データよりもシンプルでスケーラブルな学習目標から生まれる可能性がある。
論文 参考訳(メタデータ) (2026-02-19T18:56:05Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Personalized Food Image Classification: Benchmark Datasets and New
Baseline [8.019925729254178]
本稿では、自己教師付き学習と時間的特徴情報を活用することにより、個人化された食品画像分類のための新しい枠組みを提案する。
提案手法は両方のベンチマークデータセットで評価され,既存手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2023-09-15T20:11:07Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Self-Supervised Visual Representation Learning on Food Images [6.602838826255494]
既存の深層学習手法は、食品画像の人間のアノテーションに基づいて、下流タスクの視覚的表現を学習する。
実生活のほとんどの食品画像はラベルなしで取得され、データアノテーションには多くの時間と人的労力が必要です。
本稿では,食品画像における自己指導型学習手法の実装と分析に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-16T02:31:51Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Exploring the Sensory Spaces of English Perceptual Verbs in Natural
Language Data [0.40611352512781856]
エージェント対経験的区別から分析された英語の最も頻繁な知覚動詞に着目した。
本研究では,分散-意味的単語埋め込みとクラスタリングモデルに基づくデータ駆動型アプローチについて報告する。
論文 参考訳(メタデータ) (2021-10-19T03:58:44Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Saliency-Aware Class-Agnostic Food Image Segmentation [10.664526852464812]
クラス別食品画像分割法を提案する。
画像の前後の情報を利用すれば、目立たないオブジェクトを見つけることで、食べ物のイメージをセグメンテーションすることができる。
本手法は,食餌研究から収集した食品画像を用いて検証する。
論文 参考訳(メタデータ) (2021-02-13T08:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。