論文の概要: 3rd Place Solution to Large-scale Fine-grained Food Recognition
- arxiv url: http://arxiv.org/abs/2510.21199v1
- Date: Fri, 24 Oct 2025 07:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.404747
- Title: 3rd Place Solution to Large-scale Fine-grained Food Recognition
- Title(参考訳): 食品の粒度認識における第3位
- Authors: Yang Zhong, Yifan Yao, Tong Luo, Youcai Zhang, Yaqian Li,
- Abstract要約: 本稿では,Kaggleで実施したLargeFineFoodAI-ICCV Workshop-Recognitionに関するソリューションの詳細について述べる。
アークフェイスと複合的な損失により、モデルは慎重に調整された構成で訓練され、最終的な結果を得るために組み立てられた。
- 参考スコア(独自算出の注目度): 19.22837127792038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food analysis is becoming a hot topic in health area, in which fine-grained food recognition task plays an important role. In this paper, we describe the details of our solution to the LargeFineFoodAI-ICCV Workshop-Recognition challenge held on Kaggle. We find a proper combination of Arcface loss[1] and Circle loss[9] can bring improvement to the performance. With Arcface and the combined loss, model was trained with carefully tuned configurations and ensembled to get the final results. Our solution won the 3rd place in the competition.
- Abstract(参考訳): 食品分析は、細粒度食品認識タスクが重要な役割を担う健康分野においてホットな話題となっている。
本稿では,LargeFineFoodAI-ICCV Workshop-Recognition Challenge on Kaggleについて述べる。
Arcface Los[1]とCircle Los[9]の適切な組み合わせは、パフォーマンスの改善をもたらします。
アークフェイスと複合的な損失により、モデルは慎重に調整された構成で訓練され、最終的な結果を得るために組み立てられた。
私たちのソリューションは競技会で3位を獲得しました。
関連論文リスト
- 3rd Place Solution to ICCV LargeFineFoodAI Retrieval [28.928338261263487]
本稿では,ICCV LargeFineFoodAI Retrieval Competition on Kaggleの3位となるソリューションを紹介する。
4つの基本モデルは、ArcFaceとCircleの損失の重み付けで独立に訓練されている。
さらに,拡散とk-相反再位に基づく新たな検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T07:04:32Z) - MetaFood3D: 3D Food Dataset with Nutrition Values [52.16894900096017]
このデータセットは、131のカテゴリにまたがって、743の精細にスキャンされ、ラベル付けされた3D食品オブジェクトで構成されている。
我々のMetaFood3Dデータセットはクラス内の多様性を重視しており、テクスチャメッシュファイル、RGB-Dビデオ、セグメンテーションマスクなどのリッチなモダリティを含んでいる。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - MetaFood CVPR 2024 Challenge on Physically Informed 3D Food Reconstruction: Methods and Results [52.07174491056479]
私たちはMetaFood Workshopを主催し、物理的にインフォームドされた3Dフードレコンストラクションへの挑戦を行っている。
本課題は,2次元画像から,視認性チェッカーボードをサイズ基準として,食品の容積正確な3次元モデルを再構築することに焦点を当てる。
この課題で開発されたソリューションは、3D食品の復元において有望な成果を達成し、食事評価と栄養モニタリングのための部分推定の改善に有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-07-12T14:15:48Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - 1st Place Solution to the 1st SkatingVerse Challenge [12.17968838503053]
本稿では,1stVerse Skating Challengeの優勝ソリューションを提案する。
我々は、DINOフレームワークを利用して、興味領域(ROI)を抽出し、生のビデオ映像の正確なトリミングを行う。
ログに基づいて予測結果をアンサンブルすることで、我々のソリューションは95.73%という印象的なリーダーボードスコアを得た。
論文 参考訳(メタデータ) (2024-04-22T09:50:05Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。