論文の概要: Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images
- arxiv url: http://arxiv.org/abs/2510.21828v1
- Date: Wed, 22 Oct 2025 02:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.591387
- Title: Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images
- Title(参考訳): 多モード関係知識画像における構造的・抽象的推論
- Authors: Yichi Zhang, Zhuo Chen, Lingbing Guo, Lei Liang, Wen Zhang, Huajun Chen,
- Abstract要約: 本稿では,大規模高品質データと能力向上手法の二重ギャップを橋渡しする。
我々は、64Kの高品質なマルチモーダル命令サンプルからなるデータセットSTAR-64Kを導入し、5つのオープンソースMLLMに対して実験を行う。
- 参考スコア(独自算出の注目度): 58.553448128258566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reasoning with abstractive information from the visual modality presents significant challenges for current multi-modal large language models (MLLMs). Among the various forms of abstractive information, Multi-Modal Relational Knowledge (MMRK), which represents abstract relational structures between multi-modal entities using node-edge formats, remains largely under-explored. In particular, STructured and Abstractive Reasoning (STAR) on such data has received little attention from the research community. To bridge the dual gaps in large-scale high-quality data and capability enhancement methodologies, this paper makes the following key contributions: (i). An automatic STAR data engine capable of synthesizing images with MMRK to build multi-modal instruction data with reliable chain-of-thought thinking for various STAR tasks and (ii). A comprehsive two-stage capability enhancement training framework, accompanied by a suite of evaluation protocols tailored to different STAR tasks. Based upon these contributions, we introduce STAR-64K, a dataset comprising 64K high-quality multi-modal instruction samples, and conduct experiments across 5 open-source MLLMs. Experimental results show that our two-stage enhancement framework enables smaller 3B/7B models to significantly outperform GPT-4o in STAR. Additionally, we provide in-depth analysis regarding the effectiveness of various designs, data transferability, and scalability.
- Abstract(参考訳): 視覚的モダリティからの抽象情報による理解と推論は、現在のマルチモーダル大言語モデル(MLLM)にとって大きな課題となる。
抽象情報の様々な形態の中で、ノードエッジ形式を用いたマルチモーダルエンティティ間の抽象的関係構造を表すMMRK(Multi-Modal Relational Knowledge)はほとんど未探索のままである。
特にSTAR(Structured and Abstractive Reasoning)は,研究コミュニティからはほとんど注目されていない。
大規模高品質データの二重ギャップと能力向上手法を橋渡しするために,本稿では,次のような重要な貢献を行う。
(i)。
画像とMRKを合成可能な自動STARデータエンジンで、様々なSTARタスクに対する信頼性の高いチェーン・オブ・シンキングとマルチモーダル・インストラクション・データを構築する
(II)。
要約的な2段階機能強化トレーニングフレームワークには、様々なSTARタスクに合わせた一連の評価プロトコルが付属している。
これらの貢献に基づき、64Kの高品質なマルチモーダル命令サンプルからなるデータセットSTAR-64Kを導入し、5つのオープンソースMLLMに対して実験を行う。
実験結果から,2段階拡張フレームワークにより,より小型の3B/7BモデルでSTARのGPT-4oを著しく上回る結果が得られた。
さらに, 各種設計の有効性, データ転送性, 拡張性について, 詳細な分析を行う。
関連論文リスト
- Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。
MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。
私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文 参考訳(メタデータ) (2025-07-28T08:35:11Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。