論文の概要: RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
- arxiv url: http://arxiv.org/abs/2508.13968v1
- Date: Tue, 19 Aug 2025 15:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.00586
- Title: RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
- Title(参考訳): RotBench: 画像回転の同定によるマルチモーダル大言語モデルの評価
- Authors: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: MLLM(Multimodal Large Language Models)は、0deg, 90deg, 180deg, 270degで回転した入力画像の向きを正確に識別する。
このタスクは、方向に関係なく、回転キューを検出し、画像内の空間的関係を文脈化するための堅牢な視覚的推論機能を必要とする。
GPT-5, o3, Gemini-2.5-Pro など,最先端のオープンかつプロプライエタリなMLLM が入力画像の回転を確実に識別できないことを示す。
- 参考スコア(独自算出の注目度): 59.830657530592255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape images. Despite the relatively simple nature of this task, we show that several state-of-the-art open and proprietary MLLMs, including GPT-5, o3, and Gemini-2.5-Pro, do not reliably identify rotation in input images. Providing models with auxiliary information -- including captions, depth maps, and more -- or using chain-of-thought prompting offers only small and inconsistent improvements. Our results indicate that most models are able to reliably identify right-side-up (0{\deg}) images, while certain models are able to identify upside-down (180{\deg}) images. None can reliably distinguish between 90{\deg} and 270{\deg}. Simultaneously showing the image rotated in different orientations leads to moderate performance gains for reasoning models, while a modified setup using voting improves the performance of weaker models. We further show that fine-tuning does not improve models' ability to distinguish 90{\deg} and 270{\deg} rotations, despite substantially improving the identification of 180{\deg} images. Together, these results reveal a significant gap between MLLMs' spatial reasoning capabilities and human perception in identifying rotation.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)が0{\deg, 90{\deg, 180{\deg, 270{\deg, 270{\degで回転した入力画像の向きを正確に特定できる範囲について検討する。
このタスクは、方向に関係なく、回転キューを検出し、画像内の空間的関係を文脈化するための堅牢な視覚的推論機能を必要とする。
MLLMをこれらの能力で評価するために、ライフスタイル、ポートレート、ランドスケープイメージで構成される350イメージのベンチマークであるRotBenchを紹介した。
このタスクの比較的単純な性質にもかかわらず、GPT-5, o3, Gemini-2.5-Proなど、最先端のオープンでプロプライエタリなMLLMが入力画像の回転を確実に識別していないことを示す。
キャプションや深度マップなど、補助的な情報を持つモデルの提供や、チェーン・オブ・シークレットのプロンプトの使用は、小さな、一貫性のない改善しか提供しない。
その結果、ほとんどのモデルでは右サイドアップ(0{\deg})の画像が確実に識別できるが、特定のモデルではアップサイドダウン(180{\deg})の画像が特定できることがわかった。
90{\deg} と 270{\deg} を確実に区別することはできない。
異なる方向で回転した画像を同時に示すことで、推論モデルの性能が適度に向上する一方、投票による修正された設定では、より弱いモデルのパフォーマンスが向上する。
さらに,90{\degと270{\degの回転を区別するモデルの性能は,180{\degの画像の同定を大幅に改善したにもかかわらず,微調整では向上しないことを示した。
これらの結果から, MLLMの空間的推論能力と回転同定における人間の知覚との間に有意な差が認められた。
関連論文リスト
- Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Steerers: A framework for rotation equivariant keypoint descriptors [26.31402935889126]
大きな視点の変化に対して差別的で一致可能なキーポイント記述は、3次元再構成に不可欠である。
入力画像の回転を符号化する記述空間における線形変換を学習する。
回転不変画像マッチングベンチマークであるAIMSとRoto-360の最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-04T18:59:44Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - SphereSR: 360{\deg} Image Super-Resolution with Arbitrary Projection via
Continuous Spherical Image Representation [27.10716804733828]
LR 360デジメージから連続的な球面画像表現を生成するための新しいフレームワークを提案する。
具体的には、まず、イコサヘドロンに基づく球面データを表す特徴抽出モジュールを提案する。
次に、球面座標におけるRGB値を予測するために、球面局所暗黙画像関数(SLIIF)を提案する。
論文 参考訳(メタデータ) (2021-12-13T10:16:51Z) - Extreme Rotation Estimation using Dense Correlation Volumes [73.35119461422153]
本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。
画像が重なり合わなくても、それらの幾何学的関係に関して豊富な隠れた手がかりがあるかもしれないと観察する。
本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。
論文 参考訳(メタデータ) (2021-04-28T02:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。