論文の概要: Research about the Ability of LLM in the Tamper-Detection Area
- arxiv url: http://arxiv.org/abs/2401.13504v1
- Date: Wed, 24 Jan 2024 14:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 14:17:31.799828
- Title: Research about the Ability of LLM in the Tamper-Detection Area
- Title(参考訳): タンパ検出領域におけるLDMの能力に関する研究
- Authors: Xinyu Yang and Jizhe Zhou
- Abstract要約: 大きな言語モデル(LLM)は、さまざまな課題に対処する上で、最も強力なAIツールとして登場した。
GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5種類のLSMを収集した。
ほとんどのLLMは論理と矛盾しない合成画像を識別でき、より強力なLLMは論理的だが人間の目への改ざんの兆候を識別できる。
- 参考スコア(独自算出の注目度): 20.620232937684133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, particularly since the early 2020s, Large Language Models
(LLMs) have emerged as the most powerful AI tools in addressing a diverse range
of challenges, from natural language processing to complex problem-solving in
various domains. In the field of tamper detection, LLMs are capable of
identifying basic tampering activities.To assess the capabilities of LLMs in
more specialized domains, we have collected five different LLMs developed by
various companies: GPT-4, LLaMA, Bard, ERNIE Bot 4.0, and Tongyi Qianwen. This
diverse range of models allows for a comprehensive evaluation of their
performance in detecting sophisticated tampering instances.We devised two
domains of detection: AI-Generated Content (AIGC) detection and manipulation
detection. AIGC detection aims to test the ability to distinguish whether an
image is real or AI-generated. Manipulation detection, on the other hand,
focuses on identifying tampered images. According to our experiments, most LLMs
can identify composite pictures that are inconsistent with logic, and only more
powerful LLMs can distinguish logical, but visible signs of tampering to the
human eye. All of the LLMs can't identify carefully forged images and very
realistic images generated by AI. In the area of tamper detection, LLMs still
have a long way to go, particularly in reliably identifying highly
sophisticated forgeries and AI-generated images that closely mimic reality.
- Abstract(参考訳): 近年,特に2020年代初頭から,自然言語処理からさまざまな領域における複雑な問題解決に至るまで,さまざまな課題に対処する上で,Large Language Models(LLM)が最強のAIツールとして登場している。
タンパー検出の分野では, LLMは基本的な改ざん活動の特定が可能であり, より専門的な領域におけるLLMの能力を評価するために, GPT-4, LLaMA, Bard, ERNIE Bot 4.0, Tongyi Qianwenの5つの異なるLCMを収集した。
この多種多様なモデルにより、洗練された改ざんインスタンスの検出におけるパフォーマンスの総合評価が可能となり、AIGC(AI-Generated Content)検出と操作検出という2つの領域を考案した。
AIGC検出は、画像が本物かAI生成かを識別する能力をテストすることを目的としている。
一方、マニピュレーション検出は、改ざん画像の識別に重点を置いている。
我々の実験によると、ほとんどのllmは論理と矛盾する合成画像を識別でき、より強力なllmだけが論理的だが目に見える改ざんの兆候を人間の目に区別できる。
LLMはすべて、AIによって生成された慎重に偽造されたイメージや非常に現実的なイメージを識別することはできない。
改ざん検出の分野では、LLMはまだまだ長い道のりがあり、特に高度に洗練された偽造品と、現実を忠実に模倣するAI生成イメージを確実に識別する。
関連論文リスト
- How do LLMs Support Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation [23.18635769949329]
ビジュアルディープラーニング(VDL)システムは、画像認識、オブジェクト検出、自律運転といった現実世界のアプリケーションで大きな成功を収めている。
VDLの信頼性を評価するために、ソフトウェアテストは画像意味論よりも多様で制御可能な突然変異を必要とする。
MLLM(Multi-modal large language model)の急速な開発により、命令駆動方式による画像突然変異の可能性も導入された。
論文 参考訳(メタデータ) (2024-04-22T07:41:41Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオに6つの挑戦的なタスクを採用しています。
本研究は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚認識および局所化性能について検討する。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent
Detection [34.135738700682055]
本稿では,ChatGPTで表される大規模言語モデル(LLM)を包括的に評価する。
LLMには強力なゼロショット機能と少数ショット機能があるが、フルリソースで微調整されたモデルに比べれば依然として不利である。
論文 参考訳(メタデータ) (2024-02-27T07:02:10Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Customising General Large Language Models for Specialised Emotion
Recognition Tasks [24.822342337306363]
言語感情認識において,大規模言語モデル (LLM) がどのように機能するかを検討する。
具体的には、公開され、広く使われているLLM -- Chat General Language Modelを例示します。
我々は2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。
実験結果から, 適応型LLMは, 他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-22T08:09:13Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。
しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。
LLMを異なる役割に指定した3段階のフレームワークを設計する。
複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-16T14:46:52Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。