論文の概要: QuizRank: Picking Images by Quizzing VLMs
- arxiv url: http://arxiv.org/abs/2509.15059v1
- Date: Thu, 18 Sep 2025 15:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.296759
- Title: QuizRank: Picking Images by Quizzing VLMs
- Title(参考訳): QuizRank:VLMをクイズして画像を拾う
- Authors: Tenghao Ji, Eytan Adar,
- Abstract要約: 画像はウィキペディア記事の読みやすさと理解を向上させる上で重要な役割を担っている。
本稿では,大規模な言語モデル (LLM) と視覚言語モデル (VLM) を利用して,画像の学習介入としてランク付けする新しい画像選択手法であるQuizRankを提案する。
- 参考スコア(独自算出の注目度): 9.432068833600882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images play a vital role in improving the readability and comprehension of Wikipedia articles by serving as `illustrative aids.' However, not all images are equally effective and not all Wikipedia editors are trained in their selection. We propose QuizRank, a novel method of image selection that leverages large language models (LLMs) and vision language models (VLMs) to rank images as learning interventions. Our approach transforms textual descriptions of the article's subject into multiple-choice questions about important visual characteristics of the concept. We utilize these questions to quiz the VLM: the better an image can help answer questions, the higher it is ranked. To further improve discrimination between visually similar items, we introduce a Contrastive QuizRank that leverages differences in the features of target (e.g., a Western Bluebird) and distractor concepts (e.g., Mountain Bluebird) to generate questions. We demonstrate the potential of VLMs as effective visual evaluators by showing a high congruence with human quiz-takers and an effective discriminative ranking of images.
- Abstract(参考訳): 画像は、ウィキペディアの記事の読みやすさと理解を向上させる上で重要な役割を担っている。
しかし、全ての画像が等しく効果的であるわけではないし、ウィキペディアの編集者が選抜の訓練を受けているわけでもない。
本稿では,大規模な言語モデル (LLM) と視覚言語モデル (VLM) を利用して,画像の学習介入としてランク付けする新しい画像選択手法であるQuizRankを提案する。
本稿では,論文の主題のテキスト記述を,概念の重要な視覚的特徴に関する複数項目の質問に変換する。
私たちはこれらの質問を利用して、VLMをクイズします。
視覚的に類似した項目の識別をさらに改善するために、ターゲット(例えば、ウエスタンブルーバード)とイントラクタ概念(例えば、マウンテンブルーバード)の特徴の違いを利用して質問を生成するContrastive QuizRankを導入する。
我々は、人間のクイズテイカーと高い一致を示し、画像の効果的な識別的ランキングを示すことで、VLMの効果的な視覚的評価指標としての可能性を示す。
関連論文リスト
- Examining Vision Language Models through Multi-dimensional Experiments with Vision and Text Features [0.4934817254755008]
視覚言語モデル(VLM)は、画像の視覚的特性に関する質問に答えるために訓練中に学んだ固有のバイアスに依存する。
本研究の目的は、視覚言語モデルがどのように変化するかを学習し、そのような変化を特徴付ける方法を探ることである。
論文 参考訳(メタデータ) (2025-09-10T03:49:40Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models [24.736178400941267]
本研究は、視覚言語モデル(VLM)による明示的・暗黙的な社会的偏見について検討する。
明示的偏見は意識的、意図的偏見を指し、暗黙的偏見は意識的に活動する。
論文 参考訳(メタデータ) (2025-03-10T17:42:30Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。