論文の概要: Corrupted but Not Broken: Rethinking the Impact of Corrupted Data in Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.12635v1
- Date: Tue, 18 Feb 2025 08:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.867533
- Title: Corrupted but Not Broken: Rethinking the Impact of Corrupted Data in Visual Instruction Tuning
- Title(参考訳): 失敗するが失敗しない: ビジュアルインストラクションチューニングにおける失敗データの影響を再考する
- Authors: Yunhao Gou, Hansi Yang, Zhili Liu, Kai Chen, Yihan Zeng, Lanqing Hong, Zhenguo Li, Qun Liu, James T. Kwok, Yu Zhang,
- Abstract要約: 劣化したデータがマルチモーダル大言語モデル(MLLM)に与える影響について検討する。
劣化したデータはMLLMの性能を劣化させるが、その効果はほとんど表面的である。
本稿では,自己検証とポストトレーニングを組み合わせた汚職-汚職訓練のパラダイムを提案し,既存の汚職軽減戦略を著しく上回っている。
- 参考スコア(独自算出の注目度): 85.58172296577506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Instruction Tuning (VIT) enhances Multimodal Large Language Models (MLLMs) but it is hindered by corrupted datasets containing hallucinated content, incorrect responses, and poor OCR quality. While prior works focus on dataset refinement through high-quality data collection or rule-based filtering, they are costly or limited to specific types of corruption. To deeply understand how corrupted data affects MLLMs, in this paper, we systematically investigate this issue and find that while corrupted data degrades the performance of MLLMs, its effects are largely superficial in that the performance of MLLMs can be largely restored by either disabling a small subset of parameters or post-training with a small amount of clean data. Additionally, corrupted MLLMs exhibit improved ability to distinguish clean samples from corrupted ones, enabling the dataset cleaning without external help. Based on those insights, we propose a corruption-robust training paradigm combining self-validation and post-training, which significantly outperforms existing corruption mitigation strategies.
- Abstract(参考訳): VIT(Visual Instruction Tuning)はMLLM(Multimodal Large Language Models)を強化するが、幻覚的コンテンツ、誤った応答、OCR品質の悪いデータセットによって妨げられる。
以前の作業では、高品質なデータ収集やルールベースのフィルタリングによるデータセットの洗練に重点を置いていたが、コストはかかるか、特定の種類の汚職に限られている。
本報告では, MLLMの性能を劣化データが低下させるのに対して, MLLMの性能は, 少数のパラメータを無効にするか, あるいは少量のクリーンデータで後トレーニングを行うことで, ほぼ復元可能であることを明らかにした。
さらに、劣化したMLLMは、クリーンなサンプルと破損したサンプルを区別する能力が改善され、外部の助けなしにデータセットのクリーニングが可能になった。
これらの知見に基づいて,自己検証とポストトレーニングを併用した汚職災害訓練のパラダイムを提案し,既存の汚職軽減戦略を著しく上回る結果となった。
関連論文リスト
- Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - FairSAM: Fair Classification on Corrupted Data Through Sharpness-Aware Minimization [12.178322948983263]
クリーンなデータに基づいてトレーニングされた画像分類モデルは、しばしば、破損したデータをテストする際に大きなパフォーマンス劣化に悩まされる。
この劣化は全体的なパフォーマンスに影響を及ぼすだけでなく、様々な階層のサブグループに不均等に影響を与え、重要なアルゴリズムバイアスの懸念を引き起こす。
既存の公平性を意識した機械学習手法は、性能格差を減らすことを目的としているが、データの破損に直面した場合、堅牢で公平な精度を維持することは困難である。
我々は、アンダーラインFairnessを指向した戦略をアンダーラインSAMに統合した新しいフレームワークである textbfFairSAM を提案する。
論文 参考訳(メタデータ) (2025-03-29T01:51:59Z) - Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。
しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。
本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-03-09T15:29:46Z) - Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。
BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文 参考訳(メタデータ) (2025-02-24T02:57:21Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Navigating Data Corruption in Machine Learning: Balancing Quality, Quantity, and Imputation Strategies [8.770864706004472]
欠落や騒々しいデータを含むデータの破損は、現実世界の機械学習において重大な課題を生じさせる。
本研究では,データ破損がモデル性能に与える影響について検討し,これらの効果を緩和するための戦略を探る。
データセットサイズの増加は軽減されるが,データ破損の影響を完全に克服することはできない。
論文 参考訳(メタデータ) (2024-12-24T09:04:06Z) - Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection [23.378592856800168]
大きな言語モデル(LLM)は、アノテーションプロセスの自動化に使用することができる。
本研究では,メディアバイアス検出の複雑なタスクにLDMが適用可能であるかを検討する。
メディアバイアス分類のための,最初の大規模データセットであるAnnolexicalを作成します。
論文 参考訳(メタデータ) (2024-11-17T14:14:36Z) - Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions [8.666879925570331]
実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
論文 参考訳(メタデータ) (2024-11-01T09:28:24Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Healing Powers of BERT: How Task-Specific Fine-Tuning Recovers Corrupted Language Models [4.793753685154721]
言語モデルが"壊れた"場合、パラメータのいくつかが破損し、微調整によって復元されるという意味で何が起こるかを見る。
破損したモデルは、元のパフォーマンスを完全に回復するのに苦労し、高い劣化がより深刻な劣化を引き起こします。
本研究は, 言語モデルの堅牢性, 悪条件下での適応性の理解に寄与し, 弾力性NLPシステムの開発戦略の策定に寄与する。
論文 参考訳(メタデータ) (2024-06-20T16:18:04Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG [50.030526904378256]
Retrieval-Augmented Generation (RAG)は、外部文書を参照することにより、LLM(Large Language Models)の幻覚を軽減することができる。
この問題に対処するために,我々は「クレディビリティ・アウェアRAG」の課題を探求する。
我々は$textbfCr$edibility-aware $textbfA$ttention $textbfM$odification (CrAM)というプラグイン・アンド・プレイ方式を導入する。
Llama2-13B, Llama3-8B, Qwen1.5-7Bを用いた経時的質問とトリビアQA実験
論文 参考訳(メタデータ) (2024-06-17T13:01:12Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。
良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-19T14:00:39Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。