Fugu-MT 論文翻訳(概要): Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

論文の概要: Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

arxiv url: http://arxiv.org/abs/2406.16851v1
Date: Mon, 24 Jun 2024 17:58:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 13:46:06.794530
Title: Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts
Title（参考訳）: 画像ヘイスタックにおける視覚的ニーズの喪失: 視覚言語モデルは、短所と長所で容易に抽出される
Authors: Aditya Sharma, Michael Saxon, William Yang Wang,
Abstract要約: 視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。 LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。
参考スコア（独自算出の注目度）: 65.04791072532106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present LoCoVQA, a dynamic benchmark generator for evaluating long-context extractive reasoning in vision language models (VLMs). LoCoVQA augments test examples for mathematical reasoning, VQA, and character recognition tasks with increasingly long visual contexts composed of both in-distribution and out-of-distribution distractor images. Across these tasks, a diverse set of VLMs rapidly lose performance as the visual context length grows, often exhibiting a striking exponential decay trend. This test assesses how well VLMs can ignore irrelevant information when answering queries -- a task that is quite easy for language models (LMs) in the text domain -- demonstrating that current state-of-the-art VLMs lack this essential capability for many long-context applications.
Abstract（参考訳）: 本稿では,視覚言語モデル(VLM)における長文抽出推論を動的に評価するためのベンチマーク・ジェネレータであるLoCoVQAを提案する。 LoCoVQAは、数理推論、VQA、および文字認識タスクのテスト例を拡張し、分布内および分布外の両方の画像からなる、ますます長い視覚的コンテキストを持つ。これらのタスク全体では、視覚コンテキストの長さが大きくなるにつれて、多様なVLMが急速に性能を低下させ、しばしば顕著な指数的な減衰傾向を示す。このテストは、VLMがクエリ(テキストドメインの言語モデル(LM)にとって非常に容易なタスク)に応答する際に、関係のない情報を無視できるかどうかを評価する。

関連論文リスト

FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing [21.38912956638889]
MF-RSVLMは多機能核融合リモートセンシングビジョン-言語モデルである。マルチスケールの視覚表現を学習し、グローバルなコンテキストと局所的な詳細を組み合わせる。リモートセンシング分類、画像キャプション、VQAタスクにまたがる最先端または高い競争性能を達成する。
論文参考訳（メタデータ） (2025-12-30T06:48:07Z)
Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文参考訳（メタデータ） (2025-06-09T16:55:32Z)
V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。 V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。 V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines [18.602869210526848]
Vision Search Assistantは、視覚言語モデルとWebエージェントの協調を促進する新しいフレームワークである。このコラボレーションを通じて視覚的およびテキスト的表現を統合することにより、システムは、その画像がシステムに新規である場合でも、インフォームドレスポンスを提供することができる。
論文参考訳（メタデータ） (2024-10-28T17:04:18Z)
Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-10-25T17:59:09Z)
OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文参考訳（メタデータ） (2024-06-02T21:36:31Z)
MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。 MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文参考訳（メタデータ） (2024-04-29T09:19:05Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文参考訳（メタデータ） (2023-06-28T09:29:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。