Fugu-MT 論文翻訳(概要): MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

論文の概要: MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

arxiv url: http://arxiv.org/abs/2602.18729v1
Date: Sat, 21 Feb 2026 06:06:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.26836
Title: MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment
Title（参考訳）: MiSCHiEF: 微粒イメージキャプションアライメントのホロスティック評価のための安全と文化の最小ペアベンチマーク
Authors: Sagarika Banerjee, Tangatar Madi, Advait Swaminathan, Nguyen Dao Minh Anh, Shivank Garg, Kevin Zhu, Vasu Sharma,
Abstract要約: 視覚言語モデル(VLM)における微粒化イメージキャプションアライメントの重要性安全(MiS)と文化(MiC)の領域における対照的なペア設計に基づく2つのベンチマークデータセットのセットであるMiSCHiEFを提案する。モデルでは, 誤りを否定するよりも, 正しい画像キャプチャペアの確認が優れていることが判明した。
参考スコア（独自算出の注目度）: 6.648267380092096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-grained image-caption alignment is crucial for vision-language models (VLMs), especially in socially critical contexts such as identifying real-world risk scenarios or distinguishing cultural proxies, where correct interpretation hinges on subtle visual or linguistic clues and where minor misinterpretations can lead to significant real-world consequences. We present MiSCHiEF, a set of two benchmarking datasets based on a contrastive pair design in the domains of safety (MiS) and culture (MiC), and evaluate four VLMs on tasks requiring fine-grained differentiation of paired images and captions. In both datasets, each sample contains two minimally differing captions and corresponding minimally differing images. In MiS, the image-caption pairs depict a safe and an unsafe scenario, while in MiC, they depict cultural proxies in two distinct cultural contexts. We find that models generally perform better at confirming the correct image-caption pair than rejecting incorrect ones. Additionally, models achieve higher accuracy when selecting the correct caption from two highly similar captions for a given image, compared to the converse task. The results, overall, highlight persistent modality misalignment challenges in current VLMs, underscoring the difficulty of precise cross-modal grounding required for applications with subtle semantic and visual distinctions.
Abstract（参考訳）: 視覚言語モデル(VLM)では、特に現実のリスクシナリオの特定や文化プロキシの識別といった社会的に重要な文脈において、微妙な視覚的または言語的手がかりに基づく正確な解釈や、小さな誤解釈が現実の重大な結果をもたらす場合において、微粒な画像キャプチャアライメントが不可欠である。安全領域(MiS)と文化領域(MiC)のコントラスト的なペア設計に基づく2つのベンチマークデータセットのセットであるMiSCHiEFを提案し、ペア画像とキャプションの微粒化を必要とするタスクにおいて、4つのVLMを評価する。両方のデータセットでは、各サンプルは2つの最小に異なるキャプションとそれに対応する最小に異なるイメージを含む。 MiSでは、イメージキャプチャ対は安全で安全でないシナリオを描いており、MiCでは2つの異なる文化的文脈における文化的プロキシを描いている。モデルでは, 誤りを否定するよりも, 正しい画像キャプチャペアの確認が優れていることが判明した。さらに、モデルが与えられた画像の2つの非常に類似したキャプションから正しいキャプションを選択する場合、逆タスクよりも精度が高い。その結果、全体としては、現在のVLMにおける永続的なモダリティの誤調整の課題を強調し、微妙な意味と視覚的区別を持つアプリケーションに必要な正確なモダリティの接地が困難であることを強調した。

関連論文リスト

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning [20.275550783343107]
LVLM(Large Vision-Language Models)は、しばしば生成された画像キャプションにおける重要な視覚的内容の省略または誤表現を行う。このような情報損失を最小限に抑えることで、LVLMは正確な記述を生成するために画像の詳細に集中せざるを得なくなる。追加アノテーションを必要とせずに画像キャプションを強化する強化学習フレームワークであるクロスモーダルアイデンティティマッピング(CIM)を提案する。
論文参考訳（メタデータ） (2026-03-02T10:24:41Z)
PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。 PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文参考訳（メタデータ） (2025-10-21T20:30:20Z)
Image Recognition with Vision and Language Embeddings of VLMs [14.022566577479322]
視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。言語誘導画像と視覚のみの画像分類を多種多様なデュアルエンコーダVLMを用いて包括的に評価する。精度に影響を及ぼす重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
論文参考訳（メタデータ） (2025-09-11T09:54:25Z)
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。 MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文参考訳（メタデータ） (2025-09-11T03:06:22Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文参考訳（メタデータ） (2024-03-28T07:43:49Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。 3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文参考訳（メタデータ） (2023-09-15T04:39:11Z)
FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文参考訳（メタデータ） (2023-05-27T15:38:31Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。