Fugu-MT 論文翻訳(概要): Research about the Ability of LLM in the Tamper-Detection Area

論文の概要: Research about the Ability of LLM in the Tamper-Detection Area

arxiv url: http://arxiv.org/abs/2401.13504v1
Date: Wed, 24 Jan 2024 14:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:17:31.799828
Title: Research about the Ability of LLM in the Tamper-Detection Area
Title（参考訳）: タンパ検出領域におけるLDMの能力に関する研究
Authors: Xinyu Yang and Jizhe Zhou
Abstract要約: 大きな言語モデル(LLM)は、さまざまな課題に対処する上で、最も強力なAIツールとして登場した。 GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5種類のLSMを収集した。ほとんどのLLMは論理と矛盾しない合成画像を識別でき、より強力なLLMは論理的だが人間の目への改ざんの兆候を識別できる。
参考スコア（独自算出の注目度）: 20.620232937684133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, particularly since the early 2020s, Large Language Models (LLMs) have emerged as the most powerful AI tools in addressing a diverse range of challenges, from natural language processing to complex problem-solving in various domains. In the field of tamper detection, LLMs are capable of identifying basic tampering activities.To assess the capabilities of LLMs in more specialized domains, we have collected five different LLMs developed by various companies: GPT-4, LLaMA, Bard, ERNIE Bot 4.0, and Tongyi Qianwen. This diverse range of models allows for a comprehensive evaluation of their performance in detecting sophisticated tampering instances.We devised two domains of detection: AI-Generated Content (AIGC) detection and manipulation detection. AIGC detection aims to test the ability to distinguish whether an image is real or AI-generated. Manipulation detection, on the other hand, focuses on identifying tampered images. According to our experiments, most LLMs can identify composite pictures that are inconsistent with logic, and only more powerful LLMs can distinguish logical, but visible signs of tampering to the human eye. All of the LLMs can't identify carefully forged images and very realistic images generated by AI. In the area of tamper detection, LLMs still have a long way to go, particularly in reliably identifying highly sophisticated forgeries and AI-generated images that closely mimic reality.
Abstract（参考訳）: 近年,特に2020年代初頭から,自然言語処理からさまざまな領域における複雑な問題解決に至るまで,さまざまな課題に対処する上で,Large Language Models(LLM)が最強のAIツールとして登場している。タンパー検出の分野では, LLMは基本的な改ざん活動の特定が可能であり, より専門的な領域におけるLLMの能力を評価するために, GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5つの異なるLCMを収集した。この多種多様なモデルにより、洗練された改ざんインスタンスの検出におけるパフォーマンスの総合評価が可能となり、AIGC(AI-Generated Content)検出と操作検出という2つの領域を考案した。 AIGC検出は、画像が本物かAI生成かを識別する能力をテストすることを目的としている。一方、マニピュレーション検出は、改ざん画像の識別に重点を置いている。我々の実験によると、ほとんどのllmは論理と矛盾する合成画像を識別でき、より強力なllmだけが論理的だが目に見える改ざんの兆候を人間の目に区別できる。 LLMはすべて、AIによって生成された慎重に偽造されたイメージや非常に現実的なイメージを識別することはできない。改ざん検出の分野では、LLMはまだまだ長い道のりがあり、特に高度に洗練された偽造品と、現実を忠実に模倣するAI生成イメージを確実に識別する。

関連論文リスト

ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。 ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文参考訳（メタデータ） (2025-08-02T15:21:26Z)
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。次に、多段階最適化戦略によりMLLMを微調整する。得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文参考訳（メタデータ） (2025-06-08T08:47:44Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Can GPT tell us why these images are synthesized? Empowering Multimodal Large Language Models for Forensics [18.989883830031093]
マルチモーダル大規模言語モデル(LLM)は、豊かな世界の知識を符号化しているが、局所的な偽造の詳細を理解するのに苦労している。本稿では,画像の真正性評価,改ざん領域のローカライズ,エビデンスの提供,意味的改ざん手がかりに基づくトレース生成手法を提案する。我々は定性的かつ定量的な実験を行い、GPT4VがAutospliceで92.1%、LaMaで86.3%の精度を達成できることを示す。
論文参考訳（メタデータ） (2025-04-16T01:02:46Z)
FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。 FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。 FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-31T16:12:48Z)
VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。 VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文参考訳（メタデータ） (2025-03-08T09:55:19Z)
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。 MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文参考訳（メタデータ） (2025-02-07T12:18:20Z)
Large Language Models Think Too Fast To Explore Effectively [0.0]
大規模言語モデルが、特にオープンなタスクにおいて、効果的に探索できる範囲は、まだ不明である。本研究では、Little Alchemy 2をパラダイムとして、オープンエンドタスクにおいて、LLMが人間を超えることができるかどうかを検討する。
論文参考訳（メタデータ） (2025-01-29T21:51:17Z)
LLMScan: Causal Scan for LLM Misbehavior Detection [6.001414661477911]
大規模言語モデル(LLM)は、非現実的でバイアスがあり、有害な応答を生成する。この研究は、因果解析に基づく革新的なモニタリング技術であるLLMScanを導入している。
論文参考訳（メタデータ） (2024-10-22T02:27:57Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文参考訳（メタデータ） (2024-10-14T07:56:51Z)
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文参考訳（メタデータ） (2024-09-30T09:51:29Z)
DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文参考訳（メタデータ） (2024-09-09T21:12:03Z)
How do LLMs Support Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation [23.18635769949329]
ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。 VDLの信頼性を評価するために、ソフトウェアテストは画像意味論よりも多様で制御可能な突然変異を必要とする。 MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
論文参考訳（メタデータ） (2024-04-22T07:41:41Z)
FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models [62.66610648697744]
我々は人間の知覚に関する生成的視覚的偽造の分類を導入し、人間の自然言語における偽造記述を収集する。 FakeBenchは、検出、推論、解釈、きめ細かい偽造分析の4つの評価基準でLMMを調べている。本研究は,偽画像検出領域における透明性へのパラダイムシフトを示す。
論文参考訳（メタデータ） (2024-04-20T07:28:55Z)
Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。 LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文参考訳（メタデータ） (2024-02-27T07:02:10Z)
A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。既存の検出戦略とベンチマークの詳細な概要を提供する。また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文参考訳（メタデータ） (2023-10-24T09:10:26Z)
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。 SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文参考訳（メタデータ） (2023-03-03T02:07:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。