論文の概要: Multi-Objective Task-Aware Predictor for Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2510.00766v1
- Date: Wed, 01 Oct 2025 10:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.524137
- Title: Multi-Objective Task-Aware Predictor for Image-Text Alignment
- Title(参考訳): 画像テキストアライメントのための多目的タスク認識予測器
- Authors: Eunki Kim, Na Min An, James Thorne, Hyunjung Shim,
- Abstract要約: 本稿では,多目的・単目的のスコアリングが可能な頑健な予測器であるMulti-TAPを構築するためのプラグイン・アンド・プレイアーキテクチャを提案する。
マルチTAPは、大きな視覚言語モデルの上に構築された報酬ヘッドを利用して、単一の総合スコアを生成することができる。
予め訓練したLVLMの凍結した隠れ状態に対して軽量なリッジ回帰層をトレーニングすることにより、マルチTAPは複数の人間の解釈可能な目的に対してきめ細かいスコアを生成できる。
- 参考スコア(独自算出の注目度): 39.642519339252054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating image-text alignment while reflecting human preferences across multiple aspects is a significant issue for the development of reliable vision-language applications. It becomes especially crucial in real-world scenarios where multiple valid descriptions exist depending on contexts or user needs. However, research progress is hindered by the lack of comprehensive benchmarks and existing evaluation predictors lacking at least one of these key properties: (1) Alignment with human judgments, (2) Long-sequence processing, (3) Inference efficiency, and (4) Applicability to multi-objective scoring. To address these challenges, we propose a plug-and-play architecture to build a robust predictor, MULTI-TAP (Multi-Objective Task-Aware Predictor), capable of both multi and single-objective scoring. MULTI-TAP can produce a single overall score, utilizing a reward head built on top of a large vision-language model (LVLMs). We show that MULTI-TAP is robust in terms of application to different LVLM architectures, achieving significantly higher performance than existing metrics and even on par with the GPT-4o-based predictor, G-VEval, with a smaller size (7-8B). By training a lightweight ridge regression layer on the frozen hidden states of a pre-trained LVLM, MULTI-TAP can produce fine-grained scores for multiple human-interpretable objectives. MULTI-TAP performs better than VisionREWARD, a high-performing multi-objective reward model, in both performance and efficiency on multi-objective benchmarks and our newly released text-image-to-text dataset, EYE4ALL. Our new dataset, consisting of chosen/rejected human preferences (EYE4ALLPref) and human-annotated fine-grained scores across seven dimensions (EYE4ALLMulti), can serve as a foundation for developing more accessible AI systems by capturing the underlying preferences of users, including blind and low-vision (BLV) individuals.
- Abstract(参考訳): 複数の側面にわたる人間の好みを反映しながら画像テキストのアライメントを評価することは、信頼できる視覚言語アプリケーションを開発する上で重要な問題である。
コンテキストやユーザニーズによって複数の有効な記述が存在する実世界のシナリオでは、特に重要になります。
しかし,研究の進展は,(1)人的判断とのアライメント,(2)ロングシーケンス処理,(3)推論効率,(4)多目的スコアへの適用性など,これらの重要な特性の少なくとも1つを欠いた総合的なベンチマークや既存の評価予測器の欠如によって妨げられている。
これらの課題に対処するために,多目的タスク認識予測器 (Multi-Objective Task-Aware Predictor) を構築するためのプラグイン・アンド・プレイアーキテクチャを提案する。
マルチTAPは、大きな視覚言語モデル(LVLM)の上に構築された報酬ヘッドを利用して、単一の総合スコアを生成することができる。
GPT-4o ベースの予測器である G-VEval と同等の大きさ (7-8B) であっても,Multi-TAP は様々な LVLM アーキテクチャへの応用において堅牢であり,既存の指標よりもはるかに高い性能を実現していることを示す。
予め訓練したLVLMの凍結した隠れ状態に対して軽量なリッジ回帰層をトレーニングすることにより、マルチTAPは複数の人間の解釈可能な目的に対してきめ細かいスコアを生成できる。
マルチTAPは、多目的ベンチマークの性能と効率の両面において、高性能な多目的報酬モデルであるVisionREWARDと、新たにリリースされたテキスト画像からテキストへのデータセットであるEYE4ALLより優れている。
我々の新しいデータセットは、選択/拒否された人間の好み(EYE4ALLPref)と、7次元(EYE4ALLMulti)にわたる人間の注釈付ききめ細かいスコア(EYE4ALLMulti)で構成されています。
関連論文リスト
- Rethinking Human-Object Interaction Evaluation for both Vision-Language Models and HOI-Specific Methods [33.074167753966314]
本稿では,HOI検出を複数問合せタスクとして再構成するベンチマークデータセットを提案する。
以上の結果から,多くの指標において,大規模VLMが最先端のHOI固有の手法をすでに超越していることが示唆された。
論文 参考訳(メタデータ) (2025-08-26T07:30:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。