論文の概要: MMKG-RDS: Reasoning Data Synthesis via Deep Mining of Multimodal Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2602.23632v1
- Date: Fri, 27 Feb 2026 03:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.22213
- Title: MMKG-RDS: Reasoning Data Synthesis via Deep Mining of Multimodal Knowledge Graphs
- Title(参考訳): MMKG-RDS:マルチモーダル知識グラフのディープマイニングによるデータ合成の推論
- Authors: Lun Zhan, Feng Xiong, Huanyong Liu, Feng Zhang, Yuhui Yin,
- Abstract要約: データ合成のための柔軟なフレームワークMMKG-RDSを提案する。
きめ細かい知識抽出、カスタマイズ可能なパスサンプリング、多次元データ品質スコアリングをサポートする。
MMKG-RDS-Benchデータセットを用いてMMKG-RDSを検証する。
- 参考スコア(独自算出の注目度): 9.723204200825583
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthesizing high-quality training data is crucial for enhancing domain models' reasoning abilities. Existing methods face limitations in long-tail knowledge coverage, effectiveness verification, and interpretability. Knowledge-graph-based approaches still fall short in functionality, granularity, customizability, and evaluation. To address these issues, we propose MMKG-RDS, a flexible framework for reasoning data synthesis that leverages multimodal knowledge graphs. It supports fine-grained knowledge extraction, customizable path sampling, and multidimensional data quality scoring. We validate MMKG-RDS with the MMKG-RDS-Bench dataset, covering five domains, 17 task types, and 14,950 samples. Experimental results show fine-tuning Qwen3 models (0.6B/8B/32B) on a small number of synthesized samples improves reasoning accuracy by 9.2%. The framework also generates distinct data, challenging existing models on tasks involving tables and formulas, useful for complex benchmark construction. The dataset and code are available at https://github.com/360AILAB-NLP/MMKG-RDS
- Abstract(参考訳): ドメインモデルの推論能力を高めるためには、高品質なトレーニングデータの合成が不可欠である。
既存の手法では、ロングテールな知識カバレッジ、有効性検証、解釈可能性の制限に直面している。
知識グラフベースのアプローチは、機能、粒度、カスタマイズ性、評価に依然として不足している。
これらの問題に対処するため,マルチモーダル知識グラフを利用したデータ合成のための柔軟なフレームワークMMKG-RDSを提案する。
きめ細かい知識抽出、カスタマイズ可能なパスサンプリング、多次元データ品質スコアリングをサポートする。
MMKG-RDS-Benchデータセットを用いてMMKG-RDSを検証する。
実験結果から、少数の合成試料のQwen3モデル(0.6B/8B/32B)の微調整により、推理精度は9.2%向上した。
また、このフレームワークは異なるデータを生成し、テーブルや公式を含むタスクで既存のモデルに挑戦し、複雑なベンチマーク構築に役立ちます。
データセットとコードはhttps://github.com/360AILAB-NLP/MMKG-RDSで公開されている。
関連論文リスト
- Ground-Truth Subgraphs for Better Training and Evaluation of Knowledge Graph Augmented LLMs [3.222543736797976]
SynthKGQAは、あらゆる知識グラフから高品質な合成知識グラフ質問回答データセットを生成するためのフレームワークである。
我々は、KGレトリバーのより情報的なベンチマークを可能にするだけでなく、SynthKGQAで生成されたデータにより、より優れたモデルをトレーニングできることを示す。
論文 参考訳(メタデータ) (2025-11-06T15:45:18Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering [15.594694018908188]
マルチモーダルなマルチホップ質問応答 (MMQA) には、複数のソースからの画像やテキストを推論する必要がある。
既存の方法は、シングルホップ、シングルモダリティ、短いテキストに焦点を当てている。
MMQAのための高品質なデータセットを作成するための最初のフレームワークであるFM2DSを紹介します。
論文 参考訳(メタデータ) (2024-12-09T22:35:44Z) - AIDE: Attribute-Guided MultI-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning [15.916595953695603]
特定のタスクのための微調整された大型言語モデル(LLM)には、多種多様な高品質なトレーニングデータが必要である。
既存のデータ合成方法は、広範なシードデータセットに依存するか、タスクの関連性とデータの多様性のバランスをとるのに苦労する。
本稿では,Attribute-guided multI-hop Data Expansion (AIDE)を提案する。
論文 参考訳(メタデータ) (2024-12-09T01:39:16Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Distill-SynthKG: Distilling Knowledge Graph Synthesis Workflow for Improved Coverage and Efficiency [59.6772484292295]
大規模言語モデル(LLM)によって生成される知識グラフ(KG)は、検索・拡張生成(RAG)アプリケーションにとってますます価値が増している。
既存のKG抽出法は、大規模コーパスの処理に非効率なプロンプトベースのアプローチに依存している。
LLMに基づく多段階文書レベルのKGワークフローであるSynthKGを提案する。
我々はまた、RAGのための新しいグラフベースの検索フレームワークを設計する。
論文 参考訳(メタデータ) (2024-10-22T00:47:54Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。