論文の概要: CGU-ILALab at FoodBench-QA 2026: Comparing Traditional and LLM-based Approaches for Recipe Nutrient Estimation
- arxiv url: http://arxiv.org/abs/2604.25774v1
- Date: Tue, 28 Apr 2026 15:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.928329
- Title: CGU-ILALab at FoodBench-QA 2026: Comparing Traditional and LLM-based Approaches for Recipe Nutrient Estimation
- Title(参考訳): CGU-ILALab at FoodBench-QA 2026: Comparisoning traditional and LLM-based Approachs for Recipe Nutrient Estimation
- Authors: Wei-Chun Chen, Yu-Xuan Chen, I-Fang Chung, Ying-Jia Lin,
- Abstract要約: 非構造的レシピテキストからの正確な栄養素推定は、食事モニタリングにおいて重要であるが難しい問題である。
語彙マッチング手法から深い意味エンコーダまで,幅広い表現能力を有するモデルを評価する。
その結果,予測精度と計算効率のトレードオフが明らかとなった。
- 参考スコア(独自算出の注目度): 10.751176062286321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate nutrient estimation from unstructured recipe text is an important yet challenging problem in dietary monitoring, due to ambiguous ingredient terminology and highly variable quantity expressions. We systematically evaluate models spanning a wide range of representational capacity, from lexical matching methods (TF-IDF with Ridge Regression), to deep semantic encoders (DeBERTa-v3), to generative reasoning with large language models (LLMs). Under the strict tolerance criteria defined by EU Regulation 1169/2011, our empirical results reveal a clear trade-off between predictive accuracy and computational efficiency. The TF-IDF baseline achieves moderate nutrient estimation performance with near-instantaneous inference, whereas the DeBERTa-v3 encoder performs poorly under task-specific data scarcity. In contrast, few-shot LLM inference (e.g., Gemini 2.5 Flash) and a hybrid LLM refinement pipeline (TF-IDF combined with Gemini 2.5 Flash) deliver the highest validation accuracy across all nutrient categories. These improvements likely arise from the ability of LLMs to leverage pre-trained world knowledge to resolve ambiguous terminology and normalize non-standard units, which remain difficult for purely lexical approaches. However, these gains come at the cost of substantially higher inference latency, highlighting a practical deployment trade-off between real-time efficiency and nutritional precision in dietary monitoring systems.
- Abstract(参考訳): 非構造化レシピテキストからの正確な栄養素推定は、不明瞭な成分用語と高度に変動した量表現のため、食事監視において重要な課題である。
語彙マッチング手法(TF-IDFとリッジ回帰)からディープセマンティックエンコーダ(DeBERTa-v3)、大規模言語モデル(LLM)による生成的推論まで,幅広い表現能力を有するモデルを体系的に評価した。
EUレギュレーション1169/2011で定義された厳格な許容基準の下で、我々の経験的結果は予測精度と計算効率の明確なトレードオフを明らかにします。
一方,DeBERTa-v3エンコーダはタスク固有のデータ不足下では不十分である。
対照的に、数ショットのLLM推論(例:Gemini 2.5 Flash)とハイブリッドLLM精製パイプライン(TF-IDFとGemini 2.5 Flashを組み合わせた)は、すべての栄養素カテゴリで最高の検証精度を提供する。
これらの改善は、LLMが事前訓練された世界の知識を利用して曖昧な用語を解き、非標準単位を正規化する能力によって起こり、これは純粋に語彙的アプローチでは困難である。
しかし、これらの増加は、食事監視システムにおけるリアルタイム効率と栄養学的正確性の間の実践的なトレードオフを浮き彫りにした、推論遅延の著しく高いコストが伴う。
関連論文リスト
- BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation [11.37493959290663]
本稿では,参照型生成環境における回答の正当性を評価するためのエンコーダ駆動方式であるBERT-as-a-Judgeを紹介する。
より大規模なLLM審査員のパフォーマンスに適合しながら,語彙ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-04-10T17:08:40Z) - Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation [69.90401008542368]
命令生成のための内部コンテキストとして,アクションや材料を予測し,検証する意味的基盤を持つフレームワークを提案する。
Recipe1Mの実験は最先端の性能を示し、セマンティックな忠実さを著しく改善した。
論文 参考訳(メタデータ) (2026-01-26T10:06:18Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。