論文の概要: Visual Question Decomposition on Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19339v1
- Date: Mon, 7 Oct 2024 12:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.287962
- Title: Visual Question Decomposition on Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける視覚的質問分解
- Authors: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)の視覚的問題分解について検討する。
分割されたサブクエストの品質を評価するために,データセットといくつかの評価基準を含む体系的評価フレームワークを導入する。
微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。
- 参考スコア(独自算出の注目度): 42.86444079076054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question decomposition has emerged as an effective strategy for prompting Large Language Models (LLMs) to answer complex questions. However, while existing methods primarily focus on unimodal language models, the question decomposition capability of Multimodal Large Language Models (MLLMs) has yet to be explored. To this end, this paper explores visual question decomposition on MLLMs. Specifically, we introduce a systematic evaluation framework including a dataset and several evaluation criteria to assess the quality of the decomposed sub-questions, revealing that existing MLLMs struggle to produce high-quality sub-questions. To address this limitation, we propose a specific finetuning dataset, DecoVQA+, for enhancing the model's question decomposition capability. Aiming at enabling models to perform appropriate selective decomposition, we propose an efficient finetuning pipeline. The finetuning pipeline consists of our proposed dataset and a training objective for selective decomposition. Finetuned MLLMs demonstrate significant improvements in the quality of sub-questions and the policy of selective question decomposition. Additionally, the models also achieve higher accuracy with selective decomposition on VQA benchmark datasets.
- Abstract(参考訳): 質問分解は、複雑な質問に答えるためにLarge Language Models (LLMs) を促す効果的な戦略として登場した。
しかし,既存の手法は主に一助言語モデルに焦点を当てているが,MLLM(Multimodal Large Language Models)の分解能力についてはまだ検討されていない。
そこで本稿では,MLLMの視覚的問題分解について検討する。
具体的には、分割されたサブクエストの品質を評価するために、データセットといくつかの評価基準を含む体系的な評価フレームワークを導入し、既存のMLLMが高品質なサブクエストを作成するのに苦労していることを明らかにする。
この制限に対処するために、モデルの質問分解能力を高めるための特定の微調整データセットであるDecoVQA+を提案する。
モデルが適切な選択分解を行えるようにすることを目的として,効率的な微調整パイプラインを提案する。
微調整パイプラインは,提案したデータセットと選択的分解のためのトレーニング目標から構成される。
微調整MLLMはサブクエストの品質と選択的質問分解のポリシーを著しく改善した。
さらに、VQAベンチマークデータセットを選択的に分解することで、モデルの精度も向上する。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Lexicographic optimization-based approaches to learning a representative model for multi-criteria sorting with non-monotonic criteria [5.374419989598479]
本稿では,MCS問題の代表モデルを非単調な基準で学習するためのいくつかのアプローチを提案する。
まず、いくつかの変換関数を定義して、限界値と圏閾値を UTA のような関数空間にマッピングする。
そこで我々は,MCS問題における非単調な基準をモデル化するための制約セットを構築し,意思決定者の代入事例選好情報の整合性を確認する最適化モデルを構築した。
論文 参考訳(メタデータ) (2024-09-03T05:29:05Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Small Language Models Fine-tuned to Coordinate Larger Language Models
improve Complex Reasoning [41.03267013352519]
大きな言語モデル(LLM)は、印象的な推論能力を示すチェーン・オブ・シントを生成するように促された。
本稿では、分解生成器を用いて複雑な問題をより少ない推論ステップを必要とするサブプロブレムに分解するDaSLaMを紹介する。
本稿では,DaSLaMがスケール関数としての解の能力に制限されないことを示す。
論文 参考訳(メタデータ) (2023-10-21T15:23:20Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - Subset selection for linear mixed models [0.0]
線形混合モデル(LMM)は、構造的依存を伴う回帰解析に有効である。
LMMを用いた部分集合選択のためのベイズ決定解析を導入する。
これらのツールは、シミュレーションデータと縦方向の身体活動データセットに適用される。
論文 参考訳(メタデータ) (2021-07-27T15:47:44Z) - Information-theoretic Feature Selection via Tensor Decomposition and
Submodularity [38.05393186002834]
本稿では,全ての変数の結合PMFの低ランクテンソルモデルを導入し,複雑性を緩和し,与えられた特徴量の分類性能を最大化する手法として間接的ターゲットを提案する。
原目標変数の代わりにネイブベイズモデルの潜伏変数を間接的に予測することにより、濃度制約を受ける単調部分モジュラ函数として特徴選択問題を定式化することができる。
論文 参考訳(メタデータ) (2020-10-30T10:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。