論文の概要: Same or Not? Enhancing Visual Perception in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.23592v1
- Date: Mon, 29 Dec 2025 16:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.582387
- Title: Same or Not? Enhancing Visual Perception in Vision-Language Models
- Title(参考訳): 同じかどうか?視覚言語モデルにおける視覚知覚の促進
- Authors: Damiano Marsili, Aditya Mehta, Ryan Y. Lin, Georgia Gkioxari,
- Abstract要約: 視覚言語モデル(VLM)は、広い視覚的理解において優れているが、粗い粒度のままであり、視覚バイアスを示し、微妙な視覚的詳細を見逃す。
そこで我々は,VLMの知覚能力を高めるために,新たなトレーニングコーパスとタスクを導入する。
TWINは561,000のイメージペアクエリの大規模なデータセットで、2つの視覚的に類似したイメージが同じオブジェクトを描いているかをモデルで判断する。
- 参考スコア(独自算出の注目度): 6.971464056247448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) excel at broad visual understanding but remain coarse-grained, exhibit visual biases, and miss subtle visual details. Existing training corpora reinforce this limitation by emphasizing general recognition ("Is it a cat or a dog?") over fine-grained perception. To address this, we introduce a new training corpus and task designed to enhance the perceptual abilities of VLMs. TWIN is a large-scale dataset of 561,000 image-pair queries that task models to determine whether two visually similar images depict the same object, encouraging attention to nuanced visual cues. The dataset spans a diverse range of everyday objects across contexts, viewpoints, and appearances. Fine-tuning VLMs on TWIN yields notable gains in fine-grained recognition, even on unseen domains such as art, animals, plants, and landmarks. To quantify these gains, we introduce FGVQA, a benchmark suite of 12,000 queries that repurposes fine-grained recognition and retrieval datasets from multiple domains. While existing VLMs struggle on FGVQA, when fine-tuned on TWIN they improve by up to 19.3%, without compromising performance on general VQA benchmarks. Finally, our TWIN dataset scales favorably with object annotations, and our analysis shows that scale is key to performance. We envision TWIN as a drop-in addition to open-source VLM training corpora, advancing perceptual precision of future models. Project webpage: https://glab-caltech.github.io/twin/
- Abstract(参考訳): 視覚言語モデル(VLM)は、広い視覚的理解において優れているが、粗い粒度のままであり、視覚バイアスを示し、微妙な視覚的詳細を見逃す。
既存の訓練コーパスは、よりきめ細かい知覚よりも一般的な認識(猫か犬か?)を強調することで、この制限を強化している。
そこで本研究では,VLMの知覚能力を高めるために,新たなトレーニングコーパスとタスクを導入する。
TWINは561,000のイメージペアクエリの大規模なデータセットで、2つの視覚的に類似したイメージが同じオブジェクトを描いているかをモデルに決定し、微妙な視覚的手がかりに注意を向ける。
データセットは、コンテキスト、視点、外観など、さまざまな日常オブジェクトにまたがる。
TWIN上の細調整VLMは、芸術、動物、植物、ランドマークのような目に見えない領域でも、きめ細かい認識において顕著な利益をもたらす。
FGVQAは、12,000のクエリからなるベンチマークスイートで、複数のドメインからの詳細な認識と検索データセットを再利用する。
既存のVLMはFGVQAで苦戦しているが、TWINで微調整された場合、一般的なVQAベンチマークのパフォーマンスを損なうことなく19.3%改善した。
最後に、私たちのTWINデータセットはオブジェクトアノテーションで好意的にスケールします。
我々は、TWINをオープンソースのVLMトレーニングコーパスのドロップイン追加として想定し、将来のモデルの知覚精度を向上する。
プロジェクトWebページ: https://glab-caltech.github.io/twin/
関連論文リスト
- Visually Prompted Benchmarks Are Surprisingly Fragile [82.98001690512461]
VLMを評価する上で重要な課題は、視覚コンテンツをテキストから独立して分析する能力をテストすることである。
ビジュアルマーカーの設計やデータセットサイズなど,ベンチマーク設定の詳細が,モデルパフォーマンスやリーダボードのランキングに大きく影響していることを実証する。
この不安定性を軽減するため、既存のデータセットをキュレートして16のビジュアルマーカーのバリエーションを備えた、より大きな視覚的にトリガーされたベンチマークであるVPBenchを作成します。
論文 参考訳(メタデータ) (2025-12-19T18:26:58Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。