論文の概要: Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2501.05662v2
- Date: Sun, 16 Mar 2025 02:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.246683
- Title: Cascaded Self-Evaluation Augmented Training for Lightweight Multimodal LLMs
- Title(参考訳): 軽量多モードLDMの自己評価訓練
- Authors: Zheqi Lv, Wenkai Wang, Jiawei Wang, Shengyu Zhang, Fei Wu,
- Abstract要約: マルチモーダル大言語モデル (EMLLM) は、Chain-of-Thought (CoT) 推論により性能を向上させることができる。
CoT推論プロセスの自己評価能力は貧弱です。
これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
- 参考スコア(独自算出の注目度): 14.763433457556136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient Multimodal Large Language Models (EMLLMs) can improve performance through Chain-of-Thought (CoT) reasoning, but they have poor self-evaluation capabilities during the CoT reasoning process. This is due to their tendency to simplify the reasoning process and the degradation of self-evaluation ability during downstream task fine-tuning. To address this, we intuitively propose \textit{Self-Evaluation Augmented Training (SEAT)}, which uses more powerful EMLLMs to evaluate CoT reasoning data. The evaluation data is then used to train EMLLMs. However, due to the difficulties EMLLMs face with processing long token input-output sequences, and the degradation of self-evaluation ability as a basis for CoT reasoning, the SEAT method is not fully adapted. Therefore, we further propose \textit{Cascaded Self-Evaluation Augmented Training (Cas-SEAT)}, which converts long prompts into cascaded short prompts, each focusing on a specific task. Additionally, we mix CoT reasoning and self-evaluation data to preserve its CoT reasoning ability while enhancing the self-evaluation capability of EMLLMs. We also conduct \textit{Double-level Data Filtering (DDF)}, which includes source data filtering and labeled data filtering, using both manual selection and MLLMs for filtering. Cas-SEAT and DDF work together to improve the performance of EMLLMs. Experiments show that Cas-SEAT achieves an average improvement of 22.16% across multiple datasets, and DDF significantly reduces the resource consumption of training
- Abstract(参考訳): 効率的なマルチモーダル大言語モデル(EMLLM)は、CoT推論(Chain-of-Thought)により性能を向上させることができるが、CoT推論プロセスの自己評価能力は貧弱である。
これは、下流タスク微調整時の推論過程と自己評価能力の低下を単純化する傾向があるためである。
これを解決するために,より強力なEMMLMを用いてCoT推論データを評価する「textit{Self-Evaluation Augmented Training (SEAT)」を提案する。
評価データは、EMLLMのトレーニングに使用される。
しかし,長いトークン入力出力シーケンスを処理することや,CoT推論の基盤となる自己評価能力の劣化などにより,SEAT法は完全には適応できない。
そこで本稿では,長いプロンプトをカスケードショートプロンプトに変換し,それぞれが特定のタスクに焦点を絞った 'textit{Cascaded Self-Evaluation Augmented Training (Cas-SEAT)} を提案する。
さらに, 自己評価能力を高めつつ, CoT推論能力を維持するために, CoT推論と自己評価データを混合する。
また、ソースデータフィルタリングとラベル付きデータフィルタリングを含む「textit{Double-level Data Filtering (DDF)」も手動選択とMLLMを用いて行う。
Cas-SEAT と DDF は協調して EMLLM の性能を向上させる。
実験により、Cas-SEATは複数のデータセットで平均22.16%の改善を実現し、DFFはトレーニングのリソース消費を著しく減少させることが示された。
関連論文リスト
- TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge [59.57934574562651]
TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。
4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-06T12:33:20Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts [23.383151362974488]
RankCoTは、CoTをベースとした要約生成において、再ランク信号を含む知識改善手法である。
実験では,RangCoTの有効性を実証し,他の知識改善モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-25T06:18:05Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。
その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。
AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Enhancing Large Language Model with Decomposed Reasoning for Emotion
Cause Pair Extraction [13.245873138716044]
Emotion-Cause Pair extract (ECPE) は、感情とその原因を表す節対を文書で抽出する。
近年の成果から着想を得て,大規模言語モデル(LLM)を活用してECPEタスクに追加のトレーニングを加えることなく対処する方法について検討した。
人間の認知過程を模倣するチェーン・オブ・シントを導入し,Decomposed Emotion-Cause Chain (DECC) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-31T10:20:01Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。