論文の概要: Multimodal UNcommonsense: From Odd to Ordinary and Ordinary to Odd
- arxiv url: http://arxiv.org/abs/2602.01561v1
- Date: Mon, 02 Feb 2026 02:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.854894
- Title: Multimodal UNcommonsense: From Odd to Ordinary and Ordinary to Odd
- Title(参考訳): マルチモーダル・アンコモンセンス:オッドから普通へ、そしてオッドへ
- Authors: Yejin Son, Saejin Kim, Dongjun Min, Younjae Yu,
- Abstract要約: MUN(Multimodal UNsense)は、典型的な視覚的、文脈的予測から逸脱したシナリオを扱うモデルの性能を評価するためのベンチマークである。
MUNは、自然言語で記述された驚くべき、あるいはありそうもない結果と視覚的なシーンをペアリングし、日常的な論理を用いて一見奇妙なイメージを合理的にするか、通常のシーンで予期せぬ解釈を明らかにするかのどちらかをモデルに促す。
実験では、ベースラインICL法よりも平均8.3%改善し、低周波非定型設定におけるR-ICLの有効性を強調した。
- 参考スコア(独自算出の注目度): 1.0888485668490169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense reasoning in multimodal contexts remains a foundational challenge in artificial intelligence. We introduce Multimodal UNcommonsense(MUN), a benchmark designed to evaluate models' ability to handle scenarios that deviate from typical visual or contextual expectations. MUN pairs visual scenes with surprising or unlikely outcomes described in natural language, prompting models to either rationalize seemingly odd images using everyday logic or uncover unexpected interpretations in ordinary scenes. To support this task, we propose a retrieval-based in-context learning (R-ICL) framework that transfers reasoning capabilities from larger models to smaller ones without additional training. Leveraging a novel Multimodal Ensemble Retriever (MER), our method identifies semantically relevant exemplars even when image and text pairs are deliberately discordant. Experiments show an average improvement of 8.3% over baseline ICL methods, highlighting the effectiveness of R-ICL in low-frequency, atypical settings. MUN opens new directions for evaluating and improving visual-language models' robustness and adaptability in real-world, culturally diverse, and non-prototypical scenarios.
- Abstract(参考訳): マルチモーダルな文脈における常識推論は、人工知能の基本的な課題である。
MUN(Multimodal UNcommonsense)は、典型的な視覚的、文脈的予測から逸脱したシナリオを扱うモデルの能力を評価するために設計されたベンチマークである。
MUNは、自然言語で記述された驚くべき、あるいはありそうもない結果と視覚的なシーンをペアリングし、日常的な論理を用いて一見奇妙なイメージを合理的にするか、通常のシーンで予期せぬ解釈を明らかにするかのどちらかをモデルに促す。
この課題を支援するために,より大規模なモデルからより小さなモデルへの推論能力を追加のトレーニングなしで伝達する検索型インコンテキスト学習(R-ICL)フレームワークを提案する。
提案手法は,MER(Multimodal Ensemble Retriever)を用いて,画像とテキストのペアが意図的に不一致である場合でも,意味的に関係のある例を識別する。
実験では、ベースラインICL法よりも平均8.3%改善し、低周波非定型設定におけるR-ICLの有効性を強調した。
MUNは、実世界の、文化的に多様で、非原型的なシナリオにおいて、視覚言語モデルの堅牢性と適応性を評価し改善するための新しい方向を開く。
関連論文リスト
- Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。
我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。
我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文 参考訳(メタデータ) (2026-01-12T17:15:45Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs [9.953258838113]
本稿では,コンテキストとコモンセンスを用いた新しい微調整タスクであるMasked Predictionを導入する。
このタスクは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、視覚的コンテキストと常識的推論を統合するようモデルに強制する。
また,先行サンプリングによる強化ファインチューニングというイノベーティブなトレーニング手法も導入する。
論文 参考訳(メタデータ) (2025-10-21T08:50:11Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability [15.155556606996994]
Narrowing Information Bottleneck Theoryは、従来のボトルネックアプローチを再定義する新しいフレームワークである。
提案手法は,画像の解釈可能性の平均9%,テキストの解釈可能性の平均58.83%を向上し,処理速度63.95%を高速化する。
論文 参考訳(メタデータ) (2025-02-16T19:01:37Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。