論文の概要: Why MLLMs Struggle to Determine Object Orientations
- arxiv url: http://arxiv.org/abs/2604.13321v1
- Date: Tue, 14 Apr 2026 21:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.312911
- Title: Why MLLMs Struggle to Determine Object Orientations
- Title(参考訳): MLLMがオブジェクト指向を決定できない理由
- Authors: Anju Gopinath, Nikhil Krishnaswamy, Bruce Draper,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像中の2次元オブジェクトの向きに関する推論を必要とするタスクに対処する。
オリエンテーション情報は数万のフィーチャに分散していることを示す。
完全な説明は本論文の範囲を超えているが、現在あるものの、方向情報は数万の特徴に分散していることを示す。
- 参考スコア(独自算出の注目度): 6.826024583890117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) struggle with tasks that require reasoning about 2D object orientation in images, as documented in prior work. Tong et al. and Nichols et al. hypothesize that these failures originate in the visual encoder, since commonly used encoders such as CLIP and SigLIP are trained for image-text semantic alignment rather than geometric reasoning. We design a controlled empirical protocol to test this claim by measuring whether rotations can be recovered from encoder representations. In particular, we examine SigLIP and ViT features from LLaVA OneVision and Qwen2.5-VL-7B-Instruct models, respectively, using full images, and examine CLIP representations in LLaVA 1.5 and 1.6 using rotated foreground patches against natural background images. Our null hypothesis is that orientation information is not preserved in the encoder embeddings and we test this by training linear regressors to predict object orientation from encoded features. Contrary to the hypothesis, we find that orientation information is recoverable from encoder representations: simple linear models accurately predict object orientations from embeddings. This contradicts the assumption that MLLM orientation failures originate in the visual encoder. Having rejected the accepted hypothesis that MLLMs struggle with 2D orientation tasks because of visual encoder limitations, we still don't know why they fail. Although a full explanation is beyond the scope of this paper, we show that although present, orientation information is spread diffusely across tens of thousands of features. This may or may not be while MLLMs fail to exploit the available orientation information.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像内の2次元オブジェクトの向きに関する推論を必要とするタスクに対処する。
Tong et al と Nichols et al は、これらの失敗は視覚的エンコーダに由来すると仮定している。
我々は、エンコーダ表現から回転を復元できるかどうかを測定することによって、この主張をテストするための制御された経験的プロトコルを設計する。
特に,LLaVA OneVision と Qwen2.5-VL-7B-Instruct モデルのSigLIP と ViT の特徴をフルイメージを用いて検討し,LLaVA 1.5 と 1.6 の CLIP 表現を自然背景画像に対して回転した前景パッチを用いて検討した。
我々の null 仮説は、方向情報はエンコーダ埋め込みに保存されず、線形回帰器を訓練して、符号化された特徴から対象方向を予測することによってこれを検証する。
仮説とは対照的に,エンコーダ表現からオリエンテーション情報は復元可能である:単純な線形モデルは埋め込みからオブジェクトのオリエンテーションを正確に予測する。
これは、MLLM配向障害が視覚エンコーダに由来するという仮定に矛盾する。
MLLMが視覚エンコーダの限界のために2次元指向タスクに苦しむという仮説を否定したので、なぜ失敗するのかはまだわからない。
完全な説明は本論文の範囲を超えているが、現在あるものの、方向情報は数万の特徴に分散していることを示す。
これはMLLMが利用可能なオリエンテーション情報を利用するのに失敗した時かもしれない。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - RL makes MLLMs see better than SFT [96.508432109136]
マルチモーダル言語モデル(MLLM)の視覚エンコーダの批判的かつ未探索な解析を行う。
その結果、MLLMの学習後戦略(SFTまたはRL)は、下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの根底にある視覚的表現を根本的に再認識することを示した。
次に、私たちの知見をMLLMのための強力なビジョンエンコーダを構築するための簡単なレシピ、Preference-Instructed Vision OpTimization (PIVOT) に再構成する。
論文 参考訳(メタデータ) (2025-10-18T03:37:17Z) - Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures [12.466522376751811]
超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:59:07Z) - Can Visual Encoder Learn to See Arrows? [6.561578916344682]
画像エンコーダがエッジ表現を学習できるかどうかを図形データセット上で学習する。
そこで我々は,画像エンコーダを訓練するために,人工的に生成されたダイアグラム・キャプション・データセットに対してコントラスト学習を行う。
以上の結果から, 微調整モデルでは, プレトレーニング済みのCLIPよりも優れ, キャプションタスクではゼロショットGPT-4o, LLaVA-Mistralよりも優れていた。
論文 参考訳(メタデータ) (2025-05-26T13:09:31Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。