論文の概要: Evaluating the encoding competence of visual language models using uncommon actions
- arxiv url: http://arxiv.org/abs/2601.07737v1
- Date: Mon, 12 Jan 2026 17:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.688148
- Title: Evaluating the encoding competence of visual language models using uncommon actions
- Title(参考訳): 非共通行動を用いた視覚言語モデルの符号化能力の評価
- Authors: Chen Ling, Nai Ding,
- Abstract要約: UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。
我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。
我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
- 参考スコア(独自算出の注目度): 5.816389980109022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose UAIT (Uncommon-sense Action Image-Text) dataset, a new evaluation benchmark designed to test the semantic understanding ability of visual language models (VLMs) in uncommon-sense action scenes. Unlike previous datasets that focus on common visual scenes with statistical frequency advantages, UAIT challenges models with grammatically reasonable but semantically counter-common sense image-text pairs. Such tasks require models to go beyond superficial pattern recognition and demonstrate a deep understanding of agent-patient relationships and physical feasibility. To build UAIT, we designed a semi-automated process to synthesize high-quality uncommon-sense image-text samples using large language models, few-shot prompt engineering, and text-to-image generation. Each sample is accompanied by a carefully designed multiple-choice question to test the model's competence in fine-grained reasoning. We evaluate multiple state-of-the-art visual language models and compare them with models based on contrastive learning. Experiments show that all models perform significantly worse than humans in semantic judgment, especially in distinguishing grammatical correctness from semantic rationality. Further experiments show that even the lightweight model can improve its accuracy after fine-tuning, demonstrating the great potential of directional adaptation. This study not only reveals the key weaknesses of VLMs, but also provides diagnostic tools and research directions for the development of robust models with real visual semantic reasoning capabilities.
- Abstract(参考訳): UAIT(Uncommon-sense Action Image-Text)データセットは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。
統計周波数の利点を持つ一般的な視覚シーンに焦点を当てた以前のデータセットとは異なり、UAITは文法的に合理的だが意味論的に反常識的なイメージテキストペアを持つモデルに挑戦する。
このようなタスクは、表面的なパターン認識を超えて、エージェントと患者の関係と物理的な実現可能性の深い理解を示すモデルを必要とする。
UAITを構築するために,大規模な言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ生成を用いて,高品質な非常識画像テキストサンプルを合成する半自動プロセスを構築した。
各サンプルには、詳細な推論においてモデルの能力をテストするために、慎重に設計された多重選択質問が添付されている。
我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
実験により、すべてのモデルは意味的判断において人間よりも著しく悪化し、特に文法的正当性を意味的合理性と区別する。
さらなる実験により、軽量モデルでさえ微調整後の精度を向上させることができ、指向性適応の大きな可能性を示すことが示されている。
本研究は, VLMの重要な弱点を明らかにするだけでなく, 真の視覚的意味推論機能を備えたロバストモデル開発のための診断ツールや研究の方向性も提供する。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。