論文の概要: January Food Benchmark (JFB): A Public Benchmark Dataset and Evaluation Suite for Multimodal Food Analysis
- arxiv url: http://arxiv.org/abs/2508.09966v1
- Date: Wed, 13 Aug 2025 17:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.978397
- Title: January Food Benchmark (JFB): A Public Benchmark Dataset and Evaluation Suite for Multimodal Food Analysis
- Title(参考訳): 1月食品ベンチマーク(JFB):マルチモーダル食品分析のための公開ベンチマークデータセットと評価スイート
- Authors: Amir Hosseinian, Ashkan Dehghani Zahedani, Umer Mansoor, Noosheen Hashemi, Mark Woodward,
- Abstract要約: 1月食品ベンチマーク(JFB: January Food Benchmark)は、人為的なアノテーションを付加した1000枚の食品画像のコレクションである。
第2に、ロバストなメトリクスと、アプリケーション指向の新たな総合スコアを含む、包括的なベンチマークフレームワークについて詳述する。
第3に、汎用ビジョンランゲージモデル(VLM)と当社独自の特化モデルである1/food-vision-v1のベースライン結果を提供する。
- 参考スコア(独自算出の注目度): 0.62914438169038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in AI for automated nutritional analysis is critically hampered by the lack of standardized evaluation methodologies and high-quality, real-world benchmark datasets. To address this, we introduce three primary contributions. First, we present the January Food Benchmark (JFB), a publicly available collection of 1,000 food images with human-validated annotations. Second, we detail a comprehensive benchmarking framework, including robust metrics and a novel, application-oriented overall score designed to assess model performance holistically. Third, we provide baseline results from both general-purpose Vision-Language Models (VLMs) and our own specialized model, january/food-vision-v1. Our evaluation demonstrates that the specialized model achieves an Overall Score of 86.2, a 12.1-point improvement over the best-performing general-purpose configuration. This work offers the research community a valuable new evaluation dataset and a rigorous framework to guide and benchmark future developments in automated nutritional analysis.
- Abstract(参考訳): 自動栄養分析のためのAIの進歩は、標準化された評価方法論と高品質な実世界のベンチマークデータセットの欠如によって、著しく妨げられている。
これを解決するために,3つの主要なコントリビューションを紹介します。
まず1月食品ベンチマーク(JFB: January Food Benchmark)について紹介する。
第2に、ロバストなメトリクスと、モデルパフォーマンスを全体的評価するために設計された、新しいアプリケーション指向の総合スコアを含む、包括的なベンチマークフレームワークについて詳述する。
第3に、汎用ビジョンランゲージモデル(VLM)と当社独自の特化モデルである1/food-vision-v1のベースライン結果を提供する。
評価の結果, 総合スコアは86.2であり, 最高性能の汎用構成よりも12.1ポイント向上した。
この研究は、研究コミュニティに貴重な新しい評価データセットと、自動栄養分析における将来の発展をガイドし、ベンチマークするための厳格なフレームワークを提供します。
関連論文リスト
- From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics [6.708543240320757]
本稿では,人体動作生成のための8つの評価指標について詳細に検討する。
我々は一貫したモデル比較を容易にするため、統一的な評価設定を通じて標準化されたプラクティスを提案する。
変形する多様性を分析して時間歪みの多様性を評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-13T12:10:57Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Our Evaluation Metric Needs an Update to Encourage Generalization [24.6240575061124]
一般的なベンチマークで人的パフォーマンスを上回るモデルでは、Out of Distributionデータへの露出によるパフォーマンスの大幅な低下が示される。
本稿では,評価中の一般化を促す簡易で斬新な評価指標WOOD Scoreを提案する。
論文 参考訳(メタデータ) (2020-07-14T08:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。