Fugu-MT 論文翻訳(概要): F4-ITS: Fine-grained Feature Fusion for Food Image-Text Search

論文の概要: F4-ITS: Fine-grained Feature Fusion for Food Image-Text Search

arxiv url: http://arxiv.org/abs/2508.17037v1
Date: Sat, 23 Aug 2025 14:36:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 18:43:45.309445
Title: F4-ITS: Fine-grained Feature Fusion for Food Image-Text Search
Title（参考訳）: F4-ITS:食品画像検索のための微細な機能融合
Authors: Raghul Asokan,
Abstract要約: デジタル食品コンテンツは、きめ細かい視覚的理解と検索が可能な堅牢で正確なシステムの必要性を強めている。 F4-ITS: F4-ITS: Fine-fine Feature Fusion for Food Image-Text Search, a training-free, vision- language model (VLM)-guided framework。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of digital food content has intensified the need for robust and accurate systems capable of fine-grained visual understanding and retrieval. In this work, we address the challenging task of food image-to-text matching, a critical component in applications such as dietary monitoring, smart kitchens, and restaurant automation. We propose F4-ITS: Fine-grained Feature Fusion for Food Image-Text Search, a training-free, vision-language model (VLM)-guided framework that significantly improves retrieval performance through enhanced multi-modal feature representations. Our approach introduces two key contributions: (1) a uni-directional(and bi-directional) multi-modal fusion strategy that combines image embeddings with VLM-generated textual descriptions to improve query expressiveness, and (2) a novel feature-based re-ranking mechanism for top-k retrieval, leveraging predicted food ingredients to refine results and boost precision. Leveraging open-source image-text encoders, we demonstrate substantial gains over standard baselines - achieving ~10% and ~7.7% improvements in top-1 retrieval under dense and sparse caption scenarios, and a ~28.6% gain in top-k ingredient-level retrieval. Additionally, we show that smaller models (e.g., ViT-B/32) can match or outperform larger counterparts (e.g., ViT-H, ViT-G, ViT-bigG) when augmented with textual fusion, highlighting the effectiveness of our method in resource-constrained settings. Code and test datasets will be made publicly available at: https://github.com/mailcorahul/f4-its
Abstract（参考訳）: デジタル食品コンテンツの普及により、きめ細かい視覚的理解と検索が可能な堅牢で正確なシステムの必要性が高まっている。本研究では,食事の監視,スマートキッチン,レストランの自動化といったアプリケーションにおいて重要な要素である,食事画像とテキストのマッチングという課題に対処する。 F4-ITS: F4-ITS: Fine-fine Feature Fusion for Food Image-Text Search, a training-free, vision- language model (VLM)-guided framework that significantly improveing search performance through enhanced multi-modal feature representations。提案手法では,(1)画像埋め込みとVLM生成したテキスト記述を併用してクエリ表現性を向上させる一方向(および双方向)のマルチモーダル融合戦略,(2)トップk検索のための特徴に基づく新たな階層化機構,(2)予測された食品成分を活用して結果の洗練と精度の向上を行う。オープンソース画像テキストエンコーダを活用することで、標準ベースラインよりも大幅に向上し、高密度でスパースなキャプションシナリオ下でのトップ1検索が約10%と約7.7%向上し、トップk成分レベルの検索が約28.6%向上した。さらに,テキスト融合による拡張では,より小さなモデル (例えば, ViT-B/32) がより大きなモデル (例えば, ViT-H, ViT-G, ViT-bigG) と一致し, 性能が向上することを示した。コードとテストデータセットは、https://github.com/mailcorahul/f4-itsで公開される。

関連論文リスト

When Vision Meets Texts in Listwise Reranking [1.2691047660244335]
Rank-Nexusは、画像とテキストの両方を組み込んだ検索リスト上で、リストワイズで定性的な再ランクを行うマルチモーダルな画像テキスト文書再ランカである。私たちはまず、大量のテキストを再ランク付けしたデータを活用して、知識をテキストブランチに抽出する、という、モダリティを個別にトレーニングします。データが少ない画像に対しては,画像検索ベンチマーク上で,マルチモーダル大言語モデル(MLLM)キャプションから蒸留ペアを構築する。
論文参考訳（メタデータ） (2026-01-28T13:57:14Z)
Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文参考訳（メタデータ） (2026-01-08T04:29:07Z)
VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。 VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文参考訳（メタデータ） (2025-05-26T17:59:33Z)
A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文参考訳（メタデータ） (2025-05-01T02:40:30Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。 EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文参考訳（メタデータ） (2023-05-23T02:59:19Z)
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T09:36:42Z)
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文参考訳（メタデータ） (2022-12-16T05:08:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。