論文の概要: Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification
- arxiv url: http://arxiv.org/abs/2308.02562v3
- Date: Sun, 03 Aug 2025 03:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.490793
- Title: Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification
- Title(参考訳): 画像を超えて:食品分類のための視覚とテクスチュアデータの適応的融合
- Authors: Prateek Mittal, Puneet Goyal, Joohi Chauhan,
- Abstract要約: このフレームワークはUPMC Food-101データセットで厳格に評価され、画像の73.60%、テキストの88.84%の単調な分類精度を達成した。
両方のモダリティが融合されたとき、このモデルは97.84%の精度を達成し、いくつかの最先端の手法を上回った。
- 参考スコア(独自算出の注目度): 40.87887112206404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces a novel multimodal food recognition framework that effectively combines visual and textual modalities to enhance classification accuracy and robustness. The proposed approach employs a dynamic multimodal fusion strategy that adaptively integrates features from unimodal visual inputs and complementary textual metadata. This fusion mechanism is designed to maximize the use of informative content, while mitigating the adverse impact of missing or inconsistent modality data. The framework was rigorously evaluated on the UPMC Food-101 dataset and achieved unimodal classification accuracies of 73.60% for images and 88.84% for text. When both modalities were fused, the model achieved an accuracy of 97.84%, outperforming several state-of-the-art methods. Extensive experimental analysis demonstrated the robustness, adaptability, and computational efficiency of the proposed settings, highlighting its practical applicability to real-world multimodal food-recognition scenarios.
- Abstract(参考訳): 本研究では,視覚的・テキスト的モダリティを効果的に組み合わせ,分類精度とロバスト性を高めるための新しい多モーダル食品認識フレームワークを提案する。
提案手法では, 動的マルチモーダル融合戦略を用いて, 非モーダル視覚入力と相補的なテキストメタデータから特徴を適応的に統合する。
この融合機構は、欠落または矛盾したモダリティデータの悪影響を軽減しつつ、情報コンテンツの使用を最大化するように設計されている。
このフレームワークはUPMC Food-101データセットで厳格に評価され、画像の73.60%、テキストの88.84%の単調な分類精度を達成した。
両方のモダリティが融合されたとき、このモデルは97.84%の精度を達成し、いくつかの最先端の手法を上回った。
大規模な実験分析により、提案した設定の堅牢性、適応性、および計算効率が示され、実世界のマルチモーダル食品認識シナリオへの適用性を強調した。
関連論文リスト
- AdaptiSent: Context-Aware Adaptive Attention for Multimodal Aspect-Based Sentiment Analysis [1.0858565995100635]
マルチモーダルアスペクトベース感覚分析(MABSA)のための新しいフレームワークであるAdaptiSentを紹介する。
本モデルは,動的モダリティ重み付けと文脈適応型アテンションを統合し,感情の抽出とアスペクト関連情報の抽出を強化する。
標準Twitterデータセットの結果は、AdaptiSentが既存のモデルを精度、リコール、F1スコアで上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-17T00:06:43Z) - Multi-Level Attention and Contrastive Learning for Enhanced Text Classification with an Optimized Transformer [0.0]
本稿では,テキスト分類タスクにおけるモデルの性能と効率を改善するために,改良されたトランスフォーマーに基づくテキスト分類アルゴリズムについて検討する。
改良されたTransformerモデルは、BiLSTM、CNN、標準Transformer、BERTといった比較モデルよりも、分類精度、F1スコア、リコールレートで優れている。
論文 参考訳(メタデータ) (2025-01-23T08:32:27Z) - GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - SceneGraMMi: Scene Graph-boosted Hybrid-fusion for Multi-Modal Misinformation Veracity Prediction [10.909813689420602]
SceneGraMMiを提案する。SceneGraMMi, Scene Graph-boosted Hybrid-fusion approach for Multi-modal Misinformation veracity prediction。
4つのベンチマークデータセットでの実験結果から、SceneGraMMiは最先端のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-10-20T21:55:13Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Enhancing Instance-Level Image Classification with Set-Level Labels [12.778150812879034]
設定レベルラベルを活用することで、インスタンスレベルの画像分類を強化する新しい手法を提案する。
自然画像データセットと病理画像データセットの2つのカテゴリについて実験を行った。
本アルゴリズムは,病理画像分類ベンチマークにおいて最強の基準値と比較して,分類精度が13%向上した。
論文 参考訳(メタデータ) (2023-11-09T03:17:03Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Visual Interpretation-Based Self-Improved Classification System Using
Virtual Adversarial Training [4.722922834127293]
本稿では,仮想対人訓練(VAT)とBERTモデルを組み合わせた視覚的解釈に基づく自己改善型分類モデルを提案する。
具体的には、テキストの感情を分類するための分類器として、微調整のBERTモデルを用いる。
予測された感情分類ラベルは、半教師付き訓練方法によるスパム分類のための別のBERTの入力の一部として使用される。
論文 参考訳(メタデータ) (2023-09-03T15:07:24Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。