論文の概要: Multi-MLLM Knowledge Distillation for Out-of-Context News Detection
- arxiv url: http://arxiv.org/abs/2505.22517v1
- Date: Wed, 28 May 2025 16:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 20:07:45.814538
- Title: Multi-MLLM Knowledge Distillation for Out-of-Context News Detection
- Title(参考訳): 文脈外ニュース検出のためのマルチMLLM知識蒸留
- Authors: Yimeng Gu, Zhao Tong, Ignacio Castro, Shu Wu, Gareth Tyson,
- Abstract要約: マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。
本稿では,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。
ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。
ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
- 参考スコア(独自算出の注目度): 17.41734069411864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal out-of-context news is a type of misinformation in which the image is used outside of its original context. Many existing works have leveraged multimodal large language models (MLLMs) for detecting out-of-context news. However, observing the limited zero-shot performance of smaller MLLMs, they generally require label-rich fine-tuning and/or expensive API calls to GPT models to improve the performance, which is impractical in low-resource scenarios. In contrast, we aim to improve the performance of small MLLMs in a more label-efficient and cost-effective manner. To this end, we first prompt multiple teacher MLLMs to generate both label predictions and corresponding rationales, which collectively serve as the teachers' knowledge. We then introduce a two-stage knowledge distillation framework to transfer this knowledge to a student MLLM. In Stage 1, we apply LoRA fine-tuning to the student model using all training data. In Stage 2, we further fine-tune the student model using both LoRA fine-tuning and DPO on the data points where teachers' predictions conflict. This two-stage strategy reduces annotation costs and helps the student model uncover subtle patterns in more challenging cases. Experimental results demonstrate that our approach achieves state-of-the-art performance using less than 10% labeled data.
- Abstract(参考訳): マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。
既存の多くの研究は、マルチモーダルな大言語モデル(MLLM)を利用して、文脈外ニュースを検出する。
しかし、小さいMLLMのゼロショット性能が制限されているため、低リソースのシナリオでは実用的ではないため、GPTモデルに対するラベルリッチな微調整および/または高価なAPI呼び出しが要求される。
対照的に、我々はよりラベル効率が高くコスト効率の良い小さなMLLMの性能を向上させることを目指している。
この目的のために、まず複数の教師MLLMにラベル予測とそれに対応する理性の両方を生成するよう促す。
次に,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。
ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。
ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
この2段階戦略はアノテーションのコストを削減し、より困難なケースで微妙なパターンを明らかにするのに役立つ。
実験の結果,10%未満のラベル付きデータを用いて最先端の性能を実現することができた。
関連論文リスト
- LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。