論文の概要: Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.01213v1
- Date: Mon, 03 Nov 2025 04:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.116695
- Title: Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering
- Title(参考訳): 食べ物に対する思考: チェーンが引き起こす食生活の視覚的質問に対する回答
- Authors: Riddhi Jain, Manasi Patwardhan, Parijat Deshpande, Venkataramana Runkana,
- Abstract要約: 食品VQAは、正確な答えに到達するためには、多段階の推論プロセスに従う必要がある。
人間の介入を最小限に抑えてQAに推論チェーンを作ります。
ベースラインでは平均10ポイントの精度向上が見られた。
- 参考スコア(独自算出の注目度): 5.290249856411331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The immense diversity in the culture and culinary of Indian cuisines calls attention to the major shortcoming of the existing Visual Question Answering(VQA) systems which are inclined towards the foods from Western region. Recent attempt towards building a VQA dataset for Indian food is a step towards addressing this challenge. However, their approach towards VQA follows a two-step process in which the answer is generated first, followed by the explanation of the expected answer. In this work, we claim that food VQA requires to follow a multi-step reasoning process to arrive at an accurate answer, especially in the context of India food, which involves understanding complex culinary context and identifying relationships between various food items. With this hypothesis we create reasoning chains upon the QA with minimal human intervention. We fine-tune smaller LLMs and VLMs with auto-validated reasoning chains and further train them using reinforcement learning with larger data. With augmentation of reasoning chains, we observed accuracy improvement of an average 10 percentage points on the baseline. We provide detailed analysis in terms the effect of addition of reasoning chains for the Indian Food VQA task. Index Terms - FoodVQA, Reasoning Chains, Reinforcement Learning, Knowledge Graph.
- Abstract(参考訳): インド料理の文化と料理の多様性は、西欧の食品に傾倒している既存の視覚質問回答システム(VQA)の大きな欠点に注意を向けている。
インド食品のVQAデータセット構築に向けた最近の試みは、この課題に対処するためのステップである。
しかしながら、VQAに対する彼らのアプローチは、2段階のプロセスに従って答えが最初に生成される。
本研究では, 食品VQAは, 特にインド料理の文脈において, 複雑な料理の文脈を理解し, さまざまな食品間の関係を識別する多段階の推論プロセスに従う必要があると主張している。
この仮説では、最小限の人間の介入でQAに推論連鎖を生成する。
我々は,より小型のLDMとVLMを自動バリデード推論チェーンで微調整し,より大規模なデータを用いた強化学習を用いてそれらを訓練する。
推論連鎖の増大により,ベースライン上での平均10ポイントの精度向上が観察された。
インド食品VQA課題における推論連鎖の追加効果について詳細な分析を行った。
インデックス用語 - FoodVQA, Reasoning Chains, Reinforcement Learning, Knowledge Graph。
関連論文リスト
- NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning [49.06840168630573]
食事は人間の健康において重要な役割を担っているが、個々の健康状態に対する食事の理由付けは大きな課題である。
栄養質問回答(QA)は,この問題に対処するための一般的な方法である。
栄養学的健康推論のために設計された最初のグラフ質問応答データセットであるNGQA(Nutritional Graph Question Answering)ベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-12-20T04:13:46Z) - FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture [60.51749998013166]
中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
論文 参考訳(メタデータ) (2024-06-16T17:59:32Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。