論文の概要: Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection
- arxiv url: http://arxiv.org/abs/2407.12879v2
- Date: Tue, 20 Aug 2024 00:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:15:20.126197
- Title: Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection
- Title(参考訳): 大規模視覚言語モデルも良い分類法である:インテクストマルチモーダルフェイクニュース検出の検討
- Authors: Ye Jiang, Yimin Wang,
- Abstract要約: 本稿ではまず,CLIPモデルと比較し,LVLMとGPT4VのFND特性について検討する。
次に,標準文脈学習(ICL)をLVLMと統合し,FND性能の向上に言及する。
textbfIn-context textbfMultimodal textbfFake textbfNews textbfD
- 参考スコア(独自算出の注目度): 0.18416014644193068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large visual-language models (LVLMs) exhibit exceptional performance in visual-language reasoning across diverse cross-modal benchmarks. Despite these advances, recent research indicates that Large Language Models (LLMs), like GPT-3.5-turbo, underachieve compared to well-trained smaller models, such as BERT, in Fake News Detection (FND), prompting inquiries into LVLMs' efficacy in FND tasks. Although performance could improve through fine-tuning LVLMs, the substantial parameters and requisite pre-trained weights render it a resource-heavy endeavor for FND applications. This paper initially assesses the FND capabilities of two notable LVLMs, CogVLM and GPT4V, in comparison to a smaller yet adeptly trained CLIP model in a zero-shot context. The findings demonstrate that LVLMs can attain performance competitive with that of the smaller model. Next, we integrate standard in-context learning (ICL) with LVLMs, noting improvements in FND performance, though limited in scope and consistency. To address this, we introduce the \textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) framework, enriching in-context examples and test inputs with predictions and corresponding probabilities from a well-trained smaller model. This strategic integration directs the LVLMs' focus towards news segments associated with higher probabilities, thereby improving their analytical accuracy. The experimental results suggest that the IMFND framework significantly boosts the FND efficiency of LVLMs, achieving enhanced accuracy over the standard ICL approach across three publicly available FND datasets.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、多種多様なクロスモーダルベンチマークにおいて、視覚言語推論において例外的な性能を示す。
これらの進歩にもかかわらず、最近の研究は、GPT-3.5-turboのような大規模言語モデル(LLM)が、Fake News Detection (FND)においてBERTのようなよく訓練された小型モデルと比較され、FNDタスクにおけるLVLMsの有効性を問うことが示唆されている。
微調整のLVLMにより性能は向上するが、かなりのパラメータと必要な事前訓練の重み付けにより、FNDアプリケーションのためのリソース重み付けの取り組みとなった。
本稿は,CLIPモデルと比較し,まず2つの有名なLVLM(CagVLMとGPT4V)のFND能力を評価する。
以上の結果から,LVLMは小型モデルと競合する性能が得られることが示された。
次に,標準文脈学習(ICL)をLVLMと統合し,FND性能の向上に言及する。
この問題に対処するため、我々は、よく訓練された小さなモデルからの予測と対応する確率で、文脈内例とテストインプットを豊かにすることで、textbf{I}n-context \textbf{M}ultimodal \textbf{F}ake \textbf{N}ews \textbf{D}etection (IMFND) フレームワークを導入する。
この戦略的統合により、LVLMは高い確率に関連するニュースセグメントに焦点を向け、分析精度を向上させることができる。
実験結果から,IMFNDフレームワークはLVLMのFND効率を大幅に向上し,3つのFNDデータセットの標準ICLアプローチよりも精度が向上したことが示唆された。
関連論文リスト
- Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Proto-lm: A Prototypical Network-Based Framework for Built-in
Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。
本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。
提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文 参考訳(メタデータ) (2023-11-03T05:55:32Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - ReForm-Eval: Evaluating Large Vision Language Models via Unified
Re-Formulation of Task-Oriented Benchmarks [76.25209974199274]
大規模視覚言語モデル(LVLM)は、視覚信号を知覚し、視覚的根拠を持つ推論を行う驚くべき能力を示す。
当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。
論文 参考訳(メタデータ) (2023-10-04T04:07:37Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。