論文の概要: Cheap-fake Detection with LLM using Prompt Engineering
- arxiv url: http://arxiv.org/abs/2306.02776v1
- Date: Mon, 5 Jun 2023 11:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:30:18.650318
- Title: Cheap-fake Detection with LLM using Prompt Engineering
- Title(参考訳): プロンプトエンジニアリングを用いたllmによる安価フェイク検出
- Authors: Guangyang Wu, Weijie Wu, Xiaohong Liu, Kele Xu, Tianjiao Wan, Wenyi
Wang
- Abstract要約: 実際の写真と矛盾する画像キャプションとの誤用は、メディアのアウト・オブ・コンテクスト(OOC)誤用の一例である。
本稿では,ICME'23 Grand Challenge on Detecting CheapfakesにおけるOOCメディア検出のための新しい学習可能なアプローチを提案する。
- 参考スコア(独自算出の注目度): 16.029353282421116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The misuse of real photographs with conflicting image captions in news items
is an example of the out-of-context (OOC) misuse of media. In order to detect
OOC media, individuals must determine the accuracy of the statement and
evaluate whether the triplet (~\textit{i.e.}, the image and two captions)
relates to the same event. This paper presents a novel learnable approach for
detecting OOC media in ICME'23 Grand Challenge on Detecting Cheapfakes. The
proposed method is based on the COSMOS structure, which assesses the coherence
between an image and captions, as well as between two captions. We enhance the
baseline algorithm by incorporating a Large Language Model (LLM), GPT3.5, as a
feature extractor. Specifically, we propose an innovative approach to feature
extraction utilizing prompt engineering to develop a robust and reliable
feature extractor with GPT3.5 model. The proposed method captures the
correlation between two captions and effectively integrates this module into
the COSMOS baseline model, which allows for a deeper understanding of the
relationship between captions. By incorporating this module, we demonstrate the
potential for significant improvements in cheap-fakes detection performance.
The proposed methodology holds promising implications for various applications
such as natural language processing, image captioning, and text-to-image
synthesis. Docker for submission is available at
https://hub.docker.com/repository/docker/mulns/ acmmmcheapfakes.
- Abstract(参考訳): 実際の写真と矛盾する画像キャプションとの誤用は、メディアのアウト・オブ・コンテクスト(OOC)誤用の一例である。
OOCメディアを検出するには、個人が文の正確性を決定し、三重項(~\textit{i.e.}、画像と2つのキャプション)が同じ事象に関連するかどうかを評価する必要がある。
本稿では,ICME'23 Grand Challenge on Detecting CheapfakesにおけるOOCメディア検出のための新しい学習可能なアプローチを提案する。
提案手法は,画像とキャプション間のコヒーレンスと2つのキャプション間のコヒーレンスを評価するCOSMOS構造に基づく。
本稿では,Large Language Model (LLM), GPT3.5を特徴抽出器として組み込むことで,ベースラインアルゴリズムを強化する。
具体的には,gpt3.5モデルを用いたロバストで信頼性の高い特徴抽出器を開発するために,プロンプトエンジニアリングを用いた特徴抽出手法を提案する。
提案手法は2つのキャプション間の相関を捕捉し,このモジュールをCOSMOSベースラインモデルに効果的に統合することにより,キャプション間の関係をより深く理解することができる。
このモジュールを組み込むことにより,低コスト検出性能の大幅な向上の可能性を示す。
提案手法は,自然言語処理,画像キャプション,テキスト・ツー・イメージ合成など,様々な応用に有望な意味を持つ。
Docker for submitはhttps://hub.docker.com/repository/docker/mulns/ acmmmcheapfakesで利用可能だ。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-01-26T05:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。