論文の概要: What's in Common? Multimodal Models Hallucinate When Reasoning Across Scenes
- arxiv url: http://arxiv.org/abs/2511.03768v1
- Date: Wed, 05 Nov 2025 15:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.175148
- Title: What's in Common? Multimodal Models Hallucinate When Reasoning Across Scenes
- Title(参考訳): 共通点とは何か? マルチモーダルモデル
- Authors: Candace Ross, Florian Bordes, Adina Williams, Polina Kirichenko, Mark Ibrahim,
- Abstract要約: 我々は、チェーン・オブ・シークレット・推論を行うために特別に訓練されたモデルを含む、主要なマルチモーダル言語モデルを評価する。
単一のイメージでオブジェクトを知覚することは、ほとんどのモデルでは難易度が高いが、最高のモデルであっても、シーン間での推論は非常に難しい。
同様の物体が現場に存在している場合、モデルは幻覚を起こす傾向があり、トレーニング中に見られる物体の共起に依存している可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 28.96351892174009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models possess a remarkable ability to handle an open-vocabulary's worth of objects. Yet the best models still suffer from hallucinations when reasoning about scenes in the real world, revealing a gap between their seemingly strong performance on existing perception benchmarks that are saturating and their reasoning in the real world. To address this gap, we build a novel benchmark of in-the-wild scenes that we call Common-O. With more than 10.5k examples using exclusively new images not found in web training data to avoid contamination, Common-O goes beyond just perception, inspired by cognitive tests for humans, to probe reasoning across scenes by asking "what's in common?". We evaluate leading multimodal language models, including models specifically trained to perform chain-of-thought reasoning. We find that perceiving objects in single images is tractable for most models, yet reasoning across scenes is very challenging even for the best models, including reasoning models. Despite saturating many leaderboards focusing on perception, the best performing model only achieves 35% on Common-O -- and on Common-O Complex, consisting of more complex scenes, the best model achieves only 1%. Curiously, we find models are more prone to hallucinate when similar objects are present in the scene, suggesting models may be relying on object co-occurrence seen during training. Among the models we evaluated, we found scale can provide modest improvements while models explicitly trained with multi-image inputs show bigger improvements, suggesting scaled multi-image training may offer promise. We make our benchmark publicly available to spur research into the challenge of hallucination when reasoning across scenes.
- Abstract(参考訳): マルチモーダル言語モデルは、オープン語彙のオブジェクトを扱う驚くべき能力を持っている。
しかし、最高のモデルは、現実世界のシーンを推論するときにまだ幻覚に悩まされており、既存の知覚ベンチマークにおける、飽和しているように見えるパフォーマンスと、現実の世界における彼らの推論とのギャップが明らかになっている。
このギャップに対処するため、私たちはCommon-Oと呼ぶ、現在地にあるシーンの新たなベンチマークを構築しました。
ウェブトレーニングデータに排他的な新しい画像を使用しない10.5k以上の例では、Common-Oは人間の認知テストにインスパイアされた単なる認識を超越し、「何が共通しているのか?
我々は、チェーン・オブ・シークレット・推論を行うために特別に訓練されたモデルを含む、主要なマルチモーダル言語モデルを評価する。
単一のイメージでオブジェクトを知覚することは、ほとんどのモデルでは難しいが、シーン間での推論は、推論モデルを含む最高のモデルでも非常に難しい。
多くのリーダーボードの飽和にもかかわらず、最高のパフォーマンスモデルはCommon-O -- そしてより複雑なシーンで構成されたCommon-O Complex -- で35%しか達成できない。
奇妙なことに、同様の物体が現場に存在している場合、モデルは幻覚を起こす傾向があり、トレーニング中に見られる物体の共起に依存している可能性が示唆されている。
評価したモデルの中で、スケールは控えめな改善をもたらすが、マルチイメージ入力で明示的にトレーニングされたモデルはより大きな改善を示し、スケールしたマルチイメージトレーニングが約束するかもしれないことを示唆する。
当社のベンチマークを公開して,シーン間の推論における幻覚の課題の研究を加速させます。
関連論文リスト
- BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。