論文の概要: Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts
- arxiv url: http://arxiv.org/abs/2411.11479v2
- Date: Thu, 19 Dec 2024 21:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:45.871182
- Title: Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts
- Title(参考訳): Value-Spectrum:ソーシャルメディアの文脈における価値分解による視覚言語モデルの嗜好の定量化
- Authors: Jingxuan Li, Yuning Yang, Shengqi Yang, Linfan Zhang, Ying Nian Wu,
- Abstract要約: 本稿では、視覚言語モデル(VLM)の評価を目的とした、新しい視覚質問回答(VQA)ベンチマークであるValue-Spectrumを紹介する。
我々は、ビデオブラウジングをシミュレートするVLMエージェントパイプラインを設計し、TikTok、YouTube Shorts、Instagram Reelsの5万本以上のショートビデオからなるベクトルデータベースを構築した。
Value-Spectrumのベンチマークでは、VLMがバリュー指向のコンテンツをどのように扱うかについて、顕著なバリエーションが強調されている。
- 参考スコア(独自算出の注目度): 33.12056808870413
- License:
- Abstract: The recent progress in Vision-Language Models (VLMs) has broadened the scope of multimodal applications. However, evaluations often remain limited to functional tasks, neglecting abstract dimensions such as personality traits and human values. To address this gap, we introduce Value-Spectrum, a novel Visual Question Answering (VQA) benchmark aimed at assessing VLMs based on Schwartz's value dimensions that capture core values guiding people's preferences and actions. We designed a VLM agent pipeline to simulate video browsing and constructed a vector database comprising over 50,000 short videos from TikTok, YouTube Shorts, and Instagram Reels. These videos span multiple months and cover diverse topics, including family, health, hobbies, society, technology, etc. Benchmarking on Value-Spectrum highlights notable variations in how VLMs handle value-oriented content. Beyond identifying VLMs' intrinsic preferences, we also explored the ability of VLM agents to adopt specific personas when explicitly prompted, revealing insights into the adaptability of the model in role-playing scenarios. These findings highlight the potential of Value-Spectrum as a comprehensive evaluation set for tracking VLM alignments in value-based tasks and abilities to simulate diverse personas.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、マルチモーダルアプリケーションの範囲を広げている。
しかし、評価は機能的なタスクに限られており、人格の特徴や人的価値といった抽象的な次元を無視することが多い。
このギャップに対処するために、我々はValue-Spectrumという新しいVisual Question Answering (VQA)ベンチマークを紹介します。
我々は、ビデオブラウジングをシミュレートするVLMエージェントパイプラインを設計し、TikTok、YouTube Shorts、Instagram Reelsの5万本以上のショートビデオからなるベクトルデータベースを構築した。
これらのビデオは数ヶ月に渡り、家族、健康、趣味、社会、テクノロジーなどさまざまなトピックをカバーしている。
Value-Spectrumのベンチマークでは、VLMがバリュー指向のコンテンツをどのように扱うかについて、顕著なバリエーションが強調されている。
VLMの本質的な嗜好を識別するだけでなく、明示的に指示されたときに特定のペルソナを採用するVLMエージェントの能力についても検討し、ロールプレイングシナリオにおけるモデルの適応性に関する洞察を明らかにした。
これらの知見は、価値に基づくタスクにおけるVLMアライメントの追跡と多様なペルソナをシミュレートする能力に対する総合的な評価セットとして、Value-Spectrumの可能性を強調した。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation [31.062433484245684]
Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。
Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
論文 参考訳(メタデータ) (2024-01-12T14:19:23Z) - VLM-Eval: A General Evaluation on Video Large Language Models [16.92780012093112]
キャプション,質問と回答,検索,行動認識など,複数のビデオタスクを含む統合評価を導入する。
本稿では, 1 つの線形射影を用いて既存のビデオ LLM より優れるビデオ-LLaVA を提案する。
ビデオLLMを学術データセットを超えて評価し,数百対のビデオインストラクションペアのみを微調整で駆動シナリオの認識と推論能力を示す。
論文 参考訳(メタデータ) (2023-11-20T16:02:10Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。