Fugu-MT 論文翻訳(概要): Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis

論文の概要: Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis

arxiv url: http://arxiv.org/abs/2507.06571v1
Date: Wed, 09 Jul 2025 05:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.489307
Title: Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis
Title（参考訳）: マルチモーダル知識グラフを用いた食品ドメイン質問応答の強化:ハイブリッドQA生成と多様性分析
Authors: Srihari K B, Pushpak Bhattacharyya,
Abstract要約: 本稿では,大規模マルチモーダル知識グラフ(MMKG)と生成AIを組み合わせた統合食品ドメインQAフレームワークを提案する。 MMKGは、13,000のレシピ、13,000の材料、140,000のリレーション、14,000のイメージをリンクします。40のテンプレートとLLaVA/DeepSeek拡張を使って4万のQAペアを生成します。
参考スコア（独自算出の注目度）: 41.09752906121257
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a unified food-domain QA framework that combines a large-scale multimodal knowledge graph (MMKG) with generative AI. Our MMKG links 13,000 recipes, 3,000 ingredients, 140,000 relations, and 14,000 images. We generate 40,000 QA pairs using 40 templates and LLaVA/DeepSeek augmentation. Joint fine-tuning of Meta LLaMA 3.1-8B and Stable Diffusion 3.5-Large improves BERTScore by 16.2\%, reduces FID by 37.8\%, and boosts CLIP alignment by 31.1\%. Diagnostic analyses-CLIP-based mismatch detection (35.2\% to 7.3\%) and LLaVA-driven hallucination checks-ensure factual and visual fidelity. A hybrid retrieval-generation strategy achieves 94.1\% accurate image reuse and 85\% adequacy in synthesis. Our results demonstrate that structured knowledge and multimodal generation together enhance reliability and diversity in food QA.
Abstract（参考訳）: 本稿では,大規模マルチモーダル知識グラフ(MMKG)と生成AIを組み合わせた統合食品ドメインQAフレームワークを提案する。 MMKGはレシピ13,000、材料3000、関係140,000、画像14,000をリンクしています。 40のテンプレートとLLaVA/DeepSeek拡張を使って4万のQAペアを生成します。 Meta LLaMA 3.1-8BとStable Diffusion 3.5-Largeの共同微調整はBERTScoreを16.2\%改善し、FIDを37.8\%削減し、CLIPアライメントを31.1\%向上させる。診断分析-CLIPに基づくミスマッチ検出(35.2\%から7.3\%)とLLaVAによる幻覚検査は、事実と視覚の忠実性を保証する。ハイブリッド検索生成戦略は、正確な画像再利用率94.1\%、合成効率85\%を達成する。以上の結果から,構造化知識とマルチモーダル生成を併用することで,食品QAの信頼性と多様性が向上することが示唆された。

関連論文リスト

Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。現在の医用画像検索研究は方法論的限界に悩まされている。
論文参考訳（メタデータ） (2025-08-06T18:05:18Z)
A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文参考訳（メタデータ） (2025-07-07T02:22:54Z)
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation [81.26818054877658]
MMMGは、4つのモダリティの組み合わせにまたがるマルチモーダル生成の包括的なベンチマークである。人間の評価と高度に一致し、平均94.3%の合意を達成している。 GPTイメージは画像生成の精度は78.3%であるが、マルチモーダル推論とインターリーブ生成では不足している。
論文参考訳（メタデータ） (2025-05-23T08:21:28Z)
MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2025-04-14T10:19:47Z)
KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment [1.688134675717698]
KARMAは、構造化されていないテキストの構造解析を通じて知識の豊か化を自動化するために、多エージェントの大規模言語モデル(LLM)を利用する新しいフレームワークである。このアプローチでは、エンティティ発見、関係抽出、スキーマアライメント、コンフリクト解決の9つの協調エージェントを使用します。 3つの異なるドメインから1200のPubMedの記事に対する実験は、知識グラフの富化におけるKARMAの有効性を実証している。
論文参考訳（メタデータ） (2025-02-10T13:51:36Z)
Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文参考訳（メタデータ） (2025-01-27T18:35:05Z)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (2024-10-10T17:55:02Z)
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文参考訳（メタデータ） (2024-08-25T14:50:47Z)
MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。 MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-05-28T18:44:15Z)
Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model [41.11769935795965]
本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。 CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。 DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
論文参考訳（メタデータ） (2023-10-13T13:17:03Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文参考訳（メタデータ） (2022-06-19T04:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。