論文の概要: ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant
- arxiv url: http://arxiv.org/abs/2505.03654v2
- Date: Mon, 19 May 2025 08:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 21:29:33.325804
- Title: ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant
- Title(参考訳): ReGraP-LLaVA: グラフベースのパーソナライズされた大言語と視覚アシスタントを実現する推論
- Authors: Yifan Xiang, Zhenxi Zhang, Bin Li, Yixuan Weng, Shoujun Zhou, Yangfan He, Keqin Li,
- Abstract要約: 我々は120種類のパーソナライズされた知識からなるReGraPという新しいデータセットを提案する。
本稿では、対応するKGとCoT QAペアでトレーニングされたMLLMであるReGraP-LLaVAを提案する。
結果から,提案モデルはパーソナライズされた知識を学習するだけでなく,応答における関係推論も行うことがわかった。
- 参考スコア(独自算出の注目度): 16.253265097323432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in personalized MLLMs enable effective capture of user-specific concepts, supporting both recognition of personalized concepts and contextual captioning. However, humans typically explore and reason over relations among objects and individuals, transcending surface-level information to achieve more personalized and contextual understanding. To this end, existing methods may face three main limitations: Their training data lacks multi-object sets in which relations among objects are learnable. Building on the limited training data, their models overlook the relations between different personalized concepts and fail to reason over them. Their experiments mainly focus on a single personalized concept, where evaluations are limited to recognition and captioning tasks. To address the limitations, we present a new dataset named ReGraP, consisting of 120 sets of personalized knowledge. Each set includes images, KGs, and CoT QA pairs derived from the KGs, enabling more structured and sophisticated reasoning pathways. We propose ReGraP-LLaVA, an MLLM trained with the corresponding KGs and CoT QA pairs, where soft and hard graph prompting methods are designed to align KGs within the model's semantic space. We establish the ReGraP Benchmark, which contains diverse task types: multiple-choice, fill-in-the-blank, True/False, and descriptive questions in both open- and closed-ended settings. The proposed benchmark is designed to evaluate the relational reasoning and knowledge-connection capability of personalized MLLMs. We conduct experiments on the proposed ReGraP-LLaVA and other competitive MLLMs. Results show that the proposed model not only learns personalized knowledge but also performs relational reasoning in responses, achieving the SoTA performance compared with the competitive methods. All the codes and datasets are released at: https://github.com/xyfyyds/ReGraP.
- Abstract(参考訳): パーソナライズされたMLLMの最近の進歩は、パーソナライズされた概念の認識とコンテキストキャプションの両方をサポートする、ユーザ固有の概念を効果的にキャプチャすることを可能にする。
しかしながら、人間は一般的に、よりパーソナライズされた文脈的理解を達成するために、物体と個人間の関係を探求し、推論する。
トレーニングデータには、オブジェクト間の関係が学習可能なマルチオブジェクトセットが欠けている。
限られたトレーニングデータに基づいて構築されたモデルでは、さまざまなパーソナライズされた概念間の関係を見落とし、それらに対する推論に失敗する。
彼らの実験は主に1つのパーソナライズされた概念に焦点を当てており、評価は認識タスクとキャプションタスクに限定されている。
この制限に対処するため、120セットのパーソナライズされた知識からなるReGraPという新しいデータセットを提示する。
各セットには、KGから派生した画像、KG、CoT QAペアが含まれており、より構造化され洗練された推論経路を可能にする。
本稿では,対応するKGとCoT QAペアを訓練したMLLMであるReGraP-LLaVAを提案する。
ReGraPベンチマークは、マルチチョイス、フィリング・イン・ザ・ブランク、True/False、オープンエンドとクローズドエンドの両方で記述的な質問など、さまざまなタスクタイプを含む。
提案したベンチマークは、パーソナライズされたMLLMのリレーショナル推論と知識接続能力を評価するために設計されている。
提案するReGraP-LLaVAおよび他の競合MLLMについて実験を行った。
その結果,提案モデルでは,個人的知識を学習するだけでなく,応答における関係推論も行っており,競合手法と比較してSoTAの性能が向上していることがわかった。
すべてのコードとデータセットは、https://github.com/xyfyyds/ReGraP.comでリリースされる。
関連論文リスト
- MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - Training-Free Personalization via Retrieval and Reasoning on Fingerprints [31.025439143093585]
視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
R2Pは、様々な下流タスクにおける最先端のアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2025-03-24T12:36:24Z) - Efficient Relational Context Perception for Knowledge Graph Completion [25.903926643251076]
知識グラフ(KG)は知識の構造化された表現を提供するが、しばしば不完全性の課題に悩まされる。
従来の知識グラフ埋め込みモデルは、表現力のある特徴を捉える能力に制限がある。
逐次情報をモデル化し,動的文脈の学習を可能にする三重受容アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-31T11:25:58Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
MLLMのパーソナライズのための検索強化パーソナライズフレームワークについて紹介する。
一般的なMLLMから始まり、3つのステップでパーソナライズされたアシスタントにします。
大規模データセットを事前トレーニングすることにより、RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文 参考訳(メタデータ) (2024-10-17T09:10:26Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。