Fugu-MT 論文翻訳(概要): Cascaded Self-Evaluation Augmented Training for Efficient Multimodal Large Language Models

論文の概要: Cascaded Self-Evaluation Augmented Training for Efficient Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2501.05662v1
Date: Fri, 10 Jan 2025 02:28:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.114004
Title: Cascaded Self-Evaluation Augmented Training for Efficient Multimodal Large Language Models
Title（参考訳）: 効率的な多モーダル大言語モデルのための自己評価学習のケースケード化
Authors: Zheqi Lv, Wenkai Wang, Jiawei Wang, Shengyu Zhang, Fei Wu,
Abstract要約: 近年,大規模言語モデル (EMLLM) の自己評価が著しく改善されている。本稿では,SEAT(Self-Evaluation Augmented Training)を紹介する。 Cas-SEATは、長いプロンプトをタスク固有の短いプロンプトに分解し、リソース制限設定のコストを削減する。 Cas-SEATは、MathVista、Math-V、We-Mathのデータセットで19.68%、55.57%、46.79%の性能向上を実現している。
参考スコア（独自算出の注目度）: 14.763433457556136
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient Multimodal Large Language Models (EMLLMs) have rapidly advanced recently. Incorporating Chain-of-Thought (CoT) reasoning and step-by-step self-evaluation has improved their performance. However, limited parameters often hinder EMLLMs from effectively using self-evaluation during inference. Key challenges include synthesizing evaluation data, determining its quantity, optimizing training and inference strategies, and selecting appropriate prompts. To address these issues, we introduce Self-Evaluation Augmented Training (SEAT). SEAT uses more powerful EMLLMs for CoT reasoning, data selection, and evaluation generation, then trains EMLLMs with the synthesized data. However, handling long prompts and maintaining CoT reasoning quality are problematic. Therefore, we propose Cascaded Self-Evaluation Augmented Training (Cas-SEAT), which breaks down lengthy prompts into shorter, task-specific cascaded prompts and reduces costs for resource-limited settings. During data synthesis, we employ open-source 7B-parameter EMLLMs and annotate a small dataset with short prompts. Experiments demonstrate that Cas-SEAT significantly boosts EMLLMs' self-evaluation abilities, improving performance by 19.68%, 55.57%, and 46.79% on the MathVista, Math-V, and We-Math datasets, respectively. Additionally, our Cas-SEAT Dataset serves as a valuable resource for future research in enhancing EMLLM self-evaluation.
Abstract（参考訳）: 効率的なマルチモーダル大言語モデル (EMLLM) は近年急速に進歩している。 CoT(Chain-of-Thought)推論とステップバイステップの自己評価を組み込むことで,性能が向上した。しかし、限られたパラメータは、推論中に自己評価を効果的に利用することを妨げることが多い。主な課題は、評価データの合成、その量の決定、トレーニングと推論戦略の最適化、適切なプロンプトの選択である。これらの課題に対処するために、自己評価強化訓練(SEAT)を導入する。 SEATは、CoT推論、データ選択、評価生成のためにより強力なEMMLMを使用し、その後、合成データでESMLMを訓練する。しかし、長いプロンプトの処理とCoT推論品質の維持は問題となる。そこで我々は,Cascaded Self-Evaluation Augmented Training (Cas-SEAT)を提案する。データ合成中、オープンソースの7BパラメータEMLLMを使用し、短いプロンプトで小さなデータセットに注釈を付ける。 Cas-SEATはEMLLMsの自己評価能力を著しく向上させ、MathVista、Math-V、We-Mathのデータセットでそれぞれ19.68%、55.57%、46.79%の性能向上を示した。さらに、我々のCas-SEATデータセットは、ESMLM自己評価の強化における将来の研究の貴重なリソースとして役立ちます。

関連論文リスト

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文参考訳（メタデータ） (2025-08-07T15:34:06Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge [59.57934574562651]
TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。 4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-03-06T12:33:20Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文参考訳（メタデータ） (2025-03-03T12:17:36Z)
RankCoT: Refining Knowledge for Retrieval-Augmented Generation through Ranking Chain-of-Thoughts [23.383151362974488]
RankCoTは、CoTをベースとした要約生成において、再ランク信号を含む知識改善手法である。実験では,RangCoTの有効性を実証し,他の知識改善モデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-02-25T06:18:05Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-11-18T19:14:36Z)
Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。 AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文参考訳（メタデータ） (2024-10-11T00:56:37Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Enhancing Large Language Model with Decomposed Reasoning for Emotion Cause Pair Extraction [13.245873138716044]
Emotion-Cause Pair extract (ECPE) は、感情とその原因を表す節対を文書で抽出する。近年の成果から着想を得て,大規模言語モデル(LLM)を活用してECPEタスクに追加のトレーニングを加えることなく対処する方法について検討した。人間の認知過程を模倣するチェーン・オブ・シントを導入し,Decomposed Emotion-Cause Chain (DECC) フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-31T10:20:01Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。