論文の概要: CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2507.00045v1
- Date: Mon, 23 Jun 2025 22:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.132535
- Title: CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning
- Title(参考訳): CaughtCheating:あなたのMLLMは美味しそう? 視覚知覚と推論の境界を探る
- Authors: Ming Li, Chenguang Wang, Yijun Liang, Xiyao Wang, Yuhang Zhou, Xiyang Wu, Yuqing Zhang, Ruiyi Zhang, Tianyi Zhou,
- Abstract要約: MLLMは、人間のためのいくつかの専門家レベルのタスクに優れていると報告されている。
しかし、彼らは優れた人間の刑事のパフォーマンスにマッチできるだろうか?
GPT-o3がまだ処理可能ないくつかの難しいシナリオを調査し、o3のパフォーマンスがほぼゼロになる一般的なシナリオを見つけます。
CaughtCheatingは、優れた価値と実用性を備えた、難解な視覚認識と推論タスクのクラスを提供する。
- 参考スコア(独自算出の注目度): 37.51814957041462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent agentic Multi-Modal Large Language Models (MLLMs) such as GPT-o3 have achieved near-ceiling scores on various existing benchmarks, motivating a demand for more challenging test tasks. These MLLMs have been reported to excel in a few expert-level tasks for humans, e.g., GeoGuesser, reflecting their potential as a detective who can notice minuscule cues in an image and weave them into coherent, situational explanations, leading to a reliable answer. But can they match the performance of excellent human detectives? To answer this question, we investigate some hard scenarios where GPT-o3 can still handle, and find a common scenario where o3's performance drops to nearly zero, which we name CaughtCheating. It is inspired by the social media requests that ask others to detect suspicious clues from photos shared by the poster's partner. We conduct extensive experiments and analysis to understand why existing MLLMs lack sufficient capability to solve this kind of task. CaughtCheating provides a class of challenging visual perception and reasoning tasks with great value and practical usage. Success in these tasks paves the way for MLLMs to acquire human-level detective perception and reasoning capabilities.
- Abstract(参考訳): GPT-o3のような最近のエージェント型マルチモーダル言語モデル(MLLM)は、様々な既存のベンチマークでほぼシーリングスコアを獲得し、より困難なテストタスクの要求を動機付けている。
これらのMLLMは、例えばGeoGuesserのように、画像中の極小の手がかりに気づき、それらを一貫性のある状況説明に織り込むことのできる刑事としての可能性を反映して、人間にとってのいくつかの専門家レベルのタスクに精通していると報告されている。
しかし、彼らは優れた人間の刑事のパフォーマンスにマッチできるだろうか?
この質問に答えるために、GPT-o3がまだ処理可能な難易度シナリオを調査し、O3のパフォーマンスがほぼゼロになる一般的なシナリオを見つけます。
ポスターのパートナーが共有した写真から不審な手がかりを検出するよう、他人に求めるソーシャルメディアの要求に触発されたものだ。
このような課題を解決するのに、既存のMLLMに十分な能力がない理由を理解するために、広範な実験と分析を行う。
CaughtCheatingは、優れた価値と実用性を備えた、難解な視覚認識と推論タスクのクラスを提供する。
これらのタスクの成功は、MLLMが人間レベルの刑事認識と推論能力を取得するための道を開く。
関連論文リスト
- Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。
しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。
フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。