論文の概要: AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
- arxiv url: http://arxiv.org/abs/2511.20515v2
- Date: Fri, 28 Nov 2025 03:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 15:47:02.751867
- Title: AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
- Title(参考訳): AlignBench: 合成画像キャプチャペアによる微細な画像テキストアライメントのベンチマーク
- Authors: Kuniaki Saito, Risa Shinoda, Shohei Tanaka, Tosho Hirasawa, Fumio Okura, Yoshitaka Ushiku,
- Abstract要約: AlignBenchは画像テキストアライメントの新しい指標を提供するベンチマークである。
多様な画像・テキスト・画像モデルとテキスト・ツー・イメージモデルによって生成された詳細な画像・キャプチャ・ペアを評価する。
各文は正当性のために注釈付けされ、VLMをアライメント評価器として直接評価することができる。
- 参考スコア(独自算出の注目度): 27.133240420463807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing image-text alignment models such as CLIP is crucial for bridging visual and linguistic representations. Yet existing benchmarks rely on rule-based perturbations or short captions, limiting their ability to measure fine-grained alignment. We introduce AlignBench, a benchmark that provides a new indicator of image-text alignment by evaluating detailed image-caption pairs generated by diverse image-to-text and text-to-image models. Each sentence is annotated for correctness, enabling direct assessment of VLMs as alignment evaluators. Benchmarking a wide range of decoder-based VLMs reveals three key findings: (i) CLIP-based models, even those tailored for compositional reasoning, remain nearly blind; (ii) detectors systematically over-score early sentences; and (iii) they show strong self-preference, favoring their own outputs and harming detection performance. Our project page will be available at https://dahlian00.github.io/AlignBench/.
- Abstract(参考訳): CLIPのような画像テキストアライメントモデルを評価することは、視覚的および言語的表現をブリッジするのに不可欠である。
しかし、既存のベンチマークはルールベースの摂動や短いキャプションに依存しており、微粒なアライメントを測定する能力は制限されている。
多様な画像・テキスト・テキスト・ツー・イメージモデルによって生成された詳細な画像・キャプチャ・ペアを評価することで、画像・テキストのアライメントの新たな指標を提供するベンチマークであるAlignBenchを紹介する。
各文は正当性のために注釈付けされ、VLMをアライメント評価器として直接評価することができる。
幅広いデコーダベースのVLMのベンチマークでは、3つの重要な発見が明らかになった。
(i)CLIPベースのモデルは、構成的推論に適したモデルであっても、ほとんど盲目のままである。
二 検知器の体系的過度な初期文
(三)強い自己評価を示し、出力を好み、検出性能を損なう。
私たちのプロジェクトページはhttps://dahlian00.github.io/AlignBench/で公開されます。
関連論文リスト
- Image Recognition with Vision and Language Embeddings of VLMs [14.022566577479322]
視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。
言語誘導画像と視覚のみの画像分類を多種多様なデュアルエンコーダVLMを用いて包括的に評価する。
精度に影響を及ぼす重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
論文 参考訳(メタデータ) (2025-09-11T09:54:25Z) - Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation [3.4998703934432682]
Redemption Score(RS)は、3つの相補的な信号を三角測量することによって画像キャプションをランク付けする新しいフレームワークである。
Flickr8kベンチマークでは、RSはKendall-$tau$ 58.42を達成した。
論文 参考訳(メタデータ) (2025-05-22T03:35:12Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。