論文の概要: Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism
- arxiv url: http://arxiv.org/abs/2511.17672v1
- Date: Fri, 21 Nov 2025 05:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.350662
- Title: Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism
- Title(参考訳): 認知的インセプション:懐疑論の注入による視覚的偽装に対するエージェント的推論
- Authors: Yinjie Zhao, Heng Zhao, Bihan Wen, Joey Tianyi Zhou,
- Abstract要約: 完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
- 参考スコア(独自算出の注目度): 81.39177645864757
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As the development of AI-generated contents (AIGC), multi-modal Large Language Models (LLM) struggle to identify generated visual inputs from real ones. Such shortcoming causes vulnerability against visual deceptions, where the models are deceived by generated contents, and the reliability of reasoning processes is jeopardized. Therefore, facing rapidly emerging generative models and diverse data distribution, it is of vital importance to improve LLMs' generalizable reasoning to verify the authenticity of visual inputs against potential deceptions. Inspired by human cognitive processes, we discovered that LLMs exhibit tendency of over-trusting the visual inputs, while injecting skepticism could significantly improve the models visual cognitive capability against visual deceptions. Based on this discovery, we propose \textbf{Inception}, a fully reasoning-based agentic reasoning framework to conduct generalizable authenticity verification by injecting skepticism, where LLMs' reasoning logic is iteratively enhanced between External Skeptic and Internal Skeptic agents. To the best of our knowledge, this is the first fully reasoning-based framework against AIGC visual deceptions. Our approach achieved a large margin of performance improvement over the strongest existing LLM baselines and SOTA performance on AEGIS benchmark.
- Abstract(参考訳): AI生成コンテンツ(AIGC)の開発に伴い、マルチモーダル大規模言語モデル(LLM)は、実物から生成された視覚的入力を特定するのに苦労する。
このような欠点は、モデルが生成されたコンテンツによって騙され、推論プロセスの信頼性が危うくなるような、視覚的騙しに対する脆弱性を引き起こす。
したがって、急速に進化する生成モデルや多様なデータ分布に直面しているため、視覚入力の真偽を検証するため、LLMの一般化可能な推論を改善することが不可欠である。
人間の認知プロセスにインスパイアされたLLMは、視覚入力を過度に信頼する傾向を示し、懐疑論を注入することで視覚認知能力の視覚的騙しに対するモデルを大幅に改善できることがわかった。
この発見に基づいて, LLMの推論ロジックが, 外部懐疑的エージェントと内部懐疑的エージェントの間で反復的に強化される, 懐疑論を注入することによって, 一般化可能な正当性検証を行うための, 完全推論に基づくエージェント推論フレームワークである「textbf{Inception」を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
提案手法は, AEGISベンチマークにおいて, 最強のLCMベースラインとSOTA性能に対して, 大幅な性能向上を実現した。
関連論文リスト
- Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。