論文の概要: Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis
- arxiv url: http://arxiv.org/abs/2507.06571v1
- Date: Wed, 09 Jul 2025 05:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.489307
- Title: Enhancing Food-Domain Question Answering with a Multimodal Knowledge Graph: Hybrid QA Generation and Diversity Analysis
- Title(参考訳): マルチモーダル知識グラフを用いた食品ドメイン質問応答の強化:ハイブリッドQA生成と多様性分析
- Authors: Srihari K B, Pushpak Bhattacharyya,
- Abstract要約: 本稿では,大規模マルチモーダル知識グラフ(MMKG)と生成AIを組み合わせた統合食品ドメインQAフレームワークを提案する。
MMKGは、13,000のレシピ、13,000の材料、140,000のリレーション、14,000のイメージをリンクします。40のテンプレートとLLaVA/DeepSeek拡張を使って4万のQAペアを生成します。
- 参考スコア(独自算出の注目度): 41.09752906121257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a unified food-domain QA framework that combines a large-scale multimodal knowledge graph (MMKG) with generative AI. Our MMKG links 13,000 recipes, 3,000 ingredients, 140,000 relations, and 14,000 images. We generate 40,000 QA pairs using 40 templates and LLaVA/DeepSeek augmentation. Joint fine-tuning of Meta LLaMA 3.1-8B and Stable Diffusion 3.5-Large improves BERTScore by 16.2\%, reduces FID by 37.8\%, and boosts CLIP alignment by 31.1\%. Diagnostic analyses-CLIP-based mismatch detection (35.2\% to 7.3\%) and LLaVA-driven hallucination checks-ensure factual and visual fidelity. A hybrid retrieval-generation strategy achieves 94.1\% accurate image reuse and 85\% adequacy in synthesis. Our results demonstrate that structured knowledge and multimodal generation together enhance reliability and diversity in food QA.
- Abstract(参考訳): 本稿では,大規模マルチモーダル知識グラフ(MMKG)と生成AIを組み合わせた統合食品ドメインQAフレームワークを提案する。
MMKGはレシピ13,000、材料3000、関係140,000、画像14,000をリンクしています。
40のテンプレートとLLaVA/DeepSeek拡張を使って4万のQAペアを生成します。
Meta LLaMA 3.1-8BとStable Diffusion 3.5-Largeの共同微調整はBERTScoreを16.2\%改善し、FIDを37.8\%削減し、CLIPアライメントを31.1\%向上させる。
診断分析-CLIPに基づくミスマッチ検出(35.2\%から7.3\%)とLLaVAによる幻覚検査は、事実と視覚の忠実性を保証する。
ハイブリッド検索生成戦略は、正確な画像再利用率94.1\%、合成効率85\%を達成する。
以上の結果から,構造化知識とマルチモーダル生成を併用することで,食品QAの信頼性と多様性が向上することが示唆された。
関連論文リスト
- P-RAG: Prompt-Enhanced Parametric RAG with LoRA and Selective CoT for Biomedical and Multi-Hop QA [9.399056753263757]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取得することで、この制約に対処する。
3種類のRAG変異体-Standard RAG, DA-RAG, 提案したPrompt-Enhanced Parametric RAG (P-RAG) について検討した。
P-RAG は LLM 内にパラメトリック知識を統合し、チェイン・オブ・ソート (CoT) の誘導とローランド適応 (LoRA) によって導かれる証拠を回収する。
論文 参考訳(メタデータ) (2026-02-02T03:42:45Z) - DrugRAG: Enhancing Pharmacy LLM Performance Through A Novel Retrieval-Augmented Generation Pipeline [4.750574899254107]
141クエスト薬局データセットを用いて,11種類の既存大規模言語モデル (LLM) のパラメータサイズをベンチマークした。
我々は、3段階の検索拡張世代(RAG)パイプラインであるD薬RAGを開発し、検証された情報源から構造化された薬物知識を検索し、エビデンスベースの文脈で促進する。
DrugRAGは全テストモデルで精度を向上し、141-itemベンチマークでは7から21ポイント(Gemma 3 27B:61%から71%、Llama 3.1 8B:46%から67%)まで上昇した。
論文 参考訳(メタデータ) (2025-12-16T20:19:23Z) - MIRAGE: Agentic Framework for Multimodal Misinformation Detection with Web-Grounded Reasoning [0.6475163438744868]
我々は、マルチモーダル検証を4つのシーケンシャルモジュールに分解する推論時モデルプラガブルエージェントフレームワークであるMIRAGEを提案する。
視覚的妥当性評価は、AI生成した画像を検出し、クロスモーダルな一貫性分析は、Webエビデンスにおけるアウト・オブ・コンテクストの再利用、検索強化された事実チェックの根拠を特定する。
MIRAGEは、ターゲットとするWeb検索、構造化された出力、引用リンクされた有理数を用いた視覚言語モデル推論をオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-20T14:40:26Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。
現在の医用画像検索研究は方法論的限界に悩まされている。
論文 参考訳(メタデータ) (2025-08-06T18:05:18Z) - Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis [3.1427813443719868]
大きな言語モデル(LLM)のトレーニングは、高品質で推論集約的な質問応答ペアの不足という、重大なボトルネックに直面します。
textbfSemantic Bridgeは、任意の情報源から洗練されたマルチホップ推論質問を制御可能とする最初の普遍的フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T10:59:42Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。
我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。
本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文 参考訳(メタデータ) (2025-07-07T02:22:54Z) - MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation [81.26818054877658]
MMMGは、4つのモダリティの組み合わせにまたがるマルチモーダル生成の包括的なベンチマークである。
人間の評価と高度に一致し、平均94.3%の合意を達成している。
GPTイメージは画像生成の精度は78.3%であるが、マルチモーダル推論とインターリーブ生成では不足している。
論文 参考訳(メタデータ) (2025-05-23T08:21:28Z) - MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework [15.410873298893817]
MMKB-RAG(Multi-Modal Knowledge-based Retrieval-Augmented Generation)を提案する。
このフレームワークは、モデル固有の知識境界を利用して、検索プロセスのセマンティックタグを動的に生成する。
知識に基づく視覚的質問応答タスクに関する大規模な実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-14T10:19:47Z) - KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment [1.688134675717698]
KARMAは、構造化されていないテキストの構造解析を通じて知識の豊か化を自動化するために、多エージェントの大規模言語モデル(LLM)を利用する新しいフレームワークである。
このアプローチでは、エンティティ発見、関係抽出、スキーマアライメント、コンフリクト解決の9つの協調エージェントを使用します。
3つの異なるドメインから1200のPubMedの記事に対する実験は、知識グラフの富化におけるKARMAの有効性を実証している。
論文 参考訳(メタデータ) (2025-02-10T13:51:36Z) - Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。
我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文 参考訳(メタデータ) (2024-08-25T14:50:47Z) - MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-28T18:44:15Z) - Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model [41.11769935795965]
本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。
CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。
DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
論文 参考訳(メタデータ) (2023-10-13T13:17:03Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。