論文の概要: Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone
- arxiv url: http://arxiv.org/abs/2511.08215v1
- Date: Wed, 12 Nov 2025 01:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.698909
- Title: Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone
- Title(参考訳): 効率的なNet-B4ビジュアルバックボーンを用いた食品イメージベースレシピと栄養記述におけるジェミニLDMの評価
- Authors: Rizal Khoirul Anam,
- Abstract要約: 視覚的バックボーンと強力な生成的大言語モデルを統合するシステムの評価を行った。
中心となる目的は、視覚的分類精度、モデル効率、生成出力の品質のトレードオフを評価することである。
クラスごとの詳細な分析を行い、セマンティックな類似性を最も重要な障害モードと同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of digital food applications necessitates robust methods for automated nutritional analysis and culinary guidance. This paper presents a comprehensive comparative evaluation of a decoupled, multimodal pipeline for food recognition. We evaluate a system integrating a specialized visual backbone (EfficientNet-B4) with a powerful generative large language model (Google's Gemini LLM). The core objective is to evaluate the trade-offs between visual classification accuracy, model efficiency, and the quality of generative output (nutritional data and recipes). We benchmark this pipeline against alternative vision backbones (VGG-16, ResNet-50, YOLOv8) and a lightweight LLM (Gemma). We introduce a formalization for "Semantic Error Propagation" (SEP) to analyze how classification inaccuracies from the visual module cascade into the generative output. Our analysis is grounded in a new Custom Chinese Food Dataset (CCFD) developed to address cultural bias in public datasets. Experimental results demonstrate that while EfficientNet-B4 (89.0\% Top-1 Acc.) provides the best balance of accuracy and efficiency, and Gemini (9.2/10 Factual Accuracy) provides superior generative quality, the system's overall utility is fundamentally bottlenecked by the visual front-end's perceptive accuracy. We conduct a detailed per-class analysis, identifying high semantic similarity as the most critical failure mode.
- Abstract(参考訳): デジタル食品の普及は、自動栄養分析と料理指導のための堅牢な方法を必要とする。
本稿では,食品認識のための分離型マルチモーダルパイプラインの包括的比較評価について述べる。
本研究では,特殊な視覚バックボーン(EfficientNet-B4)と強力な生成型大言語モデル(GoogleのGemini LLM)を統合するシステムを評価する。
主目的は、視覚的分類精度、モデル効率、生成出力の品質(栄養データとレシピ)のトレードオフを評価することである。
我々はこのパイプラインを、代替ビジョンバックボーン(VGG-16、ResNet-50、YOLOv8)と軽量LLM(Gemma)と比較した。
本稿では,視覚モジュールカスケードから生成出力への分類不正確さを解析するために,SEP(Semantic Error Propagation)の形式化を導入する。
我々の分析は、パブリックデータセットの文化的バイアスに対処するために開発された新しいカスタム中華食品データセット(CCFD)に基づいている。
実験の結果、EfficientNet-B4 (89.0\% Top-1 Acc。
Gemini (9.2/10 Factual Accuracy) は優れた生成品質を提供し、システム全体の実用性は視覚的フロントエンドの知覚的精度によって根本的にボトルネックとなる。
クラスごとの詳細な分析を行い、セマンティックな類似性を最も重要な障害モードと同定する。
関連論文リスト
- Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。
このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。
以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:22:02Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - A Fuzzy Logic-Based Framework for Explainable Machine Learning in Big Data Analytics [0.0]
本稿では,2型ファジィ集合,粒度計算,クラスタリングを組み合わせて,ビッグデータ環境における説明可能性と公平性を高める新しいフレームワークを提案する。
UCI Air Qualityデータセットに適用した場合、このフレームワークはノイズの多いセンサデータの不確実性を効果的に管理し、言語規則を作成し、シルエットスコアとエントロピーを用いて公平さを評価する。
論文 参考訳(メタデータ) (2025-09-29T18:02:31Z) - Comprehensive Evaluation of Large Multimodal Models for Nutrition Analysis: A New Benchmark Enriched with Contextual Metadata [16.03960240895014]
栄養分析のための食事画像にはLMM(Large Multimodal Models)が適用されてきている。
本研究は、文脈メタデータの解釈が、重要な栄養価を推定する際のLMM性能をいかに向上させるかを検討する。
実験結果から, 即時的プロンプト戦略によりメタデータをインテリジェントに統合すると, 栄養価の予測値において, 平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) が著しく減少することが示された。
論文 参考訳(メタデータ) (2025-07-09T17:10:33Z) - A Plug-and-Play Learning-based IMU Bias Factor for Robust Visual-Inertial Odometry [27.62788405443008]
Inertial Prior Network (IPNet) を利用した新しいプラグアンドプレイモジュールを提案する。
IPNetは、特定のプラットフォームの動作特性を暗黙的にキャプチャすることで、IMUバイアスを推論する。
本研究では、まず、スライドウインドウアプローチを用いて生のIMUデータのみを用いてバイアスを直接推測する。
論文 参考訳(メタデータ) (2025-03-16T14:45:19Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - GCAM: Gaussian and causal-attention model of food fine-grained recognition [5.198198193921202]
本稿では,細粒度物体認識のためのガウス的・因果的アテンションモデルを提案する。
不均一なデータ分布から生じるデータドリフトに対処するために、我々は反実的推論アプローチを採用する。
実験により,GCAMはETH-FOOD101, UECFOOD256, Vireo-FOOD172データセットの最先端手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-03-18T03:39:54Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。