論文の概要: Visual Question Decomposition on Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19339v1
- Date: Mon, 7 Oct 2024 12:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.287962
- Title: Visual Question Decomposition on Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける視覚的質問分解
- Authors: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)の視覚的問題分解について検討する。
分割されたサブクエストの品質を評価するために,データセットといくつかの評価基準を含む体系的評価フレームワークを導入する。
微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。
- 参考スコア(独自算出の注目度): 42.86444079076054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.
- Abstract(参考訳): 質問分解は、複雑な質問に答えるためにLarge Language Models (LLMs) を促す効果的な戦略として登場した。
しかし,既存の手法は主に一助言語モデルに焦点を当てているが,MLLM(Multimodal Large Language Models)の分解能力についてはまだ検討されていない。
そこで本稿では,MLLMの視覚的問題分解について検討する。
具体的には、分割されたサブクエストの品質を評価するために、データセットといくつかの評価基準を含む体系的な評価フレームワークを導入し、既存のMLLMが高品質なサブクエストを作成するのに苦労していることを明らかにする。
この制限に対処するために、モデルの質問分解能力を高めるための特定の微調整データセットであるDecoVQA+を提案する。
モデルが適切な選択分解を行えるようにすることを目的として,効率的な微調整パイプラインを提案する。
微調整パイプラインは,提案したデータセットと選択的分解のためのトレーニング目標から構成される。
微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。
さらに、VQAベンチマークデータセットを選択的に分解することで、モデルの精度も向上する。
関連論文リスト
- OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Small Language Models Fine-tuned to Coordinate Larger Language Models
improve Complex Reasoning [41.03267013352519]
大きな言語モデル(LLM)は、印象的な推論能力を示すチェーン・オブ・シントを生成するように促された。
本稿では、分解生成器を用いて複雑な問題をより少ない推論ステップを必要とするサブプロブレムに分解するDaSLaMを紹介する。
本稿では,DaSLaMがスケール関数としての解の能力に制限されないことを示す。
論文 参考訳(メタデータ) (2023-10-21T15:23:20Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - Subset selection for linear mixed models [0.0]
線形混合モデル(LMM)は、構造的依存を伴う回帰解析に有効である。
LMMを用いた部分集合選択のためのベイズ決定解析を導入する。
これらのツールは、シミュレーションデータと縦方向の身体活動データセットに適用される。
論文 参考訳(メタデータ) (2021-07-27T15:47:44Z) - Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity [38.05393186002834]
本稿では,全ての変数の結合PMFの低ランクテンソルモデルを導入し,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として間接的ターゲットを提案する。
原目標変数の代わりにネイブベイズモデルの潜伏変数を間接的に予測することにより、濃度制約を受ける単調部分モジュラ函数として特徴選択問題を定式化することができる。
論文 参考訳(メタデータ) (2020-10-30T10:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。