論文の概要: Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2501.05662v2
- Date: Sun, 16 Mar 2025 02:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:43.644978
- Title: Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs
- Title(参考訳): 軽量多モードLDMの自己評価訓練
- Authors: Zheqi Lv, Wenkai Wang, Jiawei Wang, Shengyu Zhang, Fei Wu,
- Abstract要約: マルチモーダル大言語モデル (EMLLM) は、Chain-of-Thought (CoT) 推論により性能を向上させることができる。
CoT推論プロセスの自己評価能力は貧弱です。
これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
- 参考スコア(独自算出の注目度): 14.763433457556136
- License:
- Abstract: Efficient Multimodal Large Language Models (EMLLMs) can improve performance through Chain-of-Thought (CoT) reasoning, but they have poor self-evaluation capabilities during the CoT reasoning process. This is due to their tendency to simplify the reasoning process and the degradation of self-evaluation ability during downstream task fine-tuning. To address this, we intuitively propose \textit{Self-Evaluation Augmented Training (SEAT)}, which uses more powerful EMLLMs to evaluate CoT reasoning data. The evaluation data is then used to train EMLLMs. However, due to the difficulties EMLLMs face with processing long token input-output sequences, and the degradation of self-evaluation ability as a basis for CoT reasoning, the SEAT method is not fully adapted. Therefore, we further propose \textit{Cascaded Self-Evaluation Augmented Training (Cas-SEAT)}, which converts long prompts into cascaded short prompts, each focusing on a specific task. Additionally, we mix CoT reasoning and self-evaluation data to preserve its CoT reasoning ability while enhancing the self-evaluation capability of EMLLMs. We also conduct \textit{Double-level Data Filtering (DDF)}, which includes source data filtering and labeled data filtering, using both manual selection and MLLMs for filtering. Cas-SEAT and DDF work together to improve the performance of EMLLMs. Experiments show that Cas-SEAT achieves an average improvement of 22.16% across multiple datasets, and DDF significantly reduces the resource consumption of training
- Abstract(参考訳): 効率的なマルチモーダル大言語モデル(EMLLM)は、CoT推論(Chain-of-Thought)により性能を向上させることができるが、CoT推論プロセスの自己評価能力は貧弱である。
これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
これを解決するために,より強力なEMMLMを用いてCoT推論データを評価する「textit{Self-Evaluation Augmented Training (SEAT)」を提案する。
評価データは、EMLLMのトレーニングに使用される。
しかし,長いトークン入力出力シーケンスを処理することや,CoT推論の基盤となる自己評価能力の劣化などにより,SEAT法は完全には適応できない。
そこで本稿では,長いプロンプトをカスケードショートプロンプトに変換し,それぞれが特定のタスクに焦点を絞った 'textit{Cascaded Self-Evaluation Augmented Training (Cas-SEAT)} を提案する。
さらに, 自己評価能力を高めつつ, CoT推論能力を維持するために, CoT推論と自己評価データを混合する。
また、ソースデータフィルタリングとラベル付きデータフィルタリングを含む「textit{Double-level Data Filtering (DDF)」も手動選択とMLLMを用いて行う。
Cas-SEAT と DDF は協調して EMLLM の性能を向上させる。
実験により、Cas-SEATは複数のデータセットで平均22.16%の改善を実現し、DFFはトレーニングのリソース消費を著しく減少させることが示された。
関連論文リスト
- PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。