Fugu-MT 論文翻訳(概要): Evaluating Attribute Comprehension in Large Vision-Language Models

論文の概要: Evaluating Attribute Comprehension in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2408.13898v1
Date: Sun, 25 Aug 2024 17:42:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 15:32:15.744917
Title: Evaluating Attribute Comprehension in Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルにおける属性理解の評価
Authors: Haiwen Zhang, Zixi Yang, Yuanzhi Liu, Xinran Wang, Zheqi He, Kongming Liang, Zhanyu Ma,
Abstract要約: 本研究では,属性認識と属性階層理解という2つの視点から,大規模視覚言語モデルの属性理解能力を評価する。 1)大きな視覚言語モデルは属性認識能力が高いが,その階層的理解能力は比較的限られている。この研究が、大きな視覚言語モデルのきめ細かな視覚的理解の今後の進歩を導くのに役立つことを願っている。
参考スコア（独自算出の注目度）: 18.513510568037624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Currently, large vision-language models have gained promising progress on many downstream tasks. However, they still suffer many challenges in fine-grained visual understanding tasks, such as object attribute comprehension. Besides, there have been growing efforts on the evaluations of large vision-language models, but lack of in-depth study of attribute comprehension and the visual language fine-tuning process. In this paper, we propose to evaluate the attribute comprehension ability of large vision-language models from two perspectives: attribute recognition and attribute hierarchy understanding. We evaluate three vision-language interactions, including visual question answering, image-text matching, and image-text cosine similarity. Furthermore, we explore the factors affecting attribute comprehension during fine-tuning. Through a series of quantitative and qualitative experiments, we introduce three main findings: (1) Large vision-language models possess good attribute recognition ability, but their hierarchical understanding ability is relatively limited. (2) Compared to ITC, ITM exhibits superior capability in capturing finer details, making it more suitable for attribute understanding tasks. (3) The attribute information in the captions used for fine-tuning plays a crucial role in attribute understanding. We hope this work can help guide future progress in fine-grained visual understanding of large vision-language models.
Abstract（参考訳）: 現在、多くの下流タスクにおいて大きなビジョン言語モデルが有望な進歩を遂げている。しかし、それらはオブジェクト属性の理解など、きめ細かい視覚的理解タスクにおいて多くの課題を被っている。さらに,大規模な視覚言語モデルの評価にも取り組み続けているが,属性理解の詳細な研究や視覚言語微調整プロセスの欠如が指摘されている。本稿では,属性認識と属性階層理解という2つの観点から,大規模視覚言語モデルの属性理解能力を評価することを提案する。視覚的質問応答、画像-テキストマッチング、画像-テキストのコサイン類似性を含む3つの視覚-言語間相互作用を評価する。さらに,微調整時の属性理解に影響を及ぼす要因についても検討した。 1)大規模視覚言語モデルは属性認識能力に優れるが,その階層的理解能力は比較的限られている。 2)ITCと比較して,IMMは細部を捉える能力に優れており,属性理解作業に適している。 (3) 微調整に用いるキャプションの属性情報は属性理解において重要な役割を果たす。この研究が、大きな視覚言語モデルのきめ細かな視覚的理解の今後の進歩を導くのに役立つことを願っている。

関連論文リスト

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。 VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文参考訳（メタデータ） (2026-02-27T06:23:56Z)
Seeing Through Words: Controlling Visual Retrieval Quality with Language Models [68.49490036960559]
本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
論文参考訳（メタデータ） (2026-02-24T18:20:57Z)
Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文参考訳（メタデータ） (2025-05-08T20:04:27Z)
Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach [33.20992355312175]
MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的理解の著しい進歩を示している。本稿では,4つのモデルファミリーと4つのモデルスケールにまたがる系統的な調査により,この問題に対処することを目的とする。分析の結果,これらの注意ヘッドの挙動,注意重みの分布,および入力中の視覚的トークンへの集中との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2024-12-24T02:31:24Z)
ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文参考訳（メタデータ） (2024-08-07T21:44:29Z)
Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文参考訳（メタデータ） (2023-12-20T12:46:30Z)
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文参考訳（メタデータ） (2023-11-02T06:21:35Z)
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文参考訳（メタデータ） (2023-08-22T04:24:45Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
Accessible Visualization via Natural Language Descriptions: A Four-Level Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文参考訳（メタデータ） (2021-10-08T23:37:25Z)
Quantifying Learnability and Describability of Visual Concepts Emerging in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文参考訳（メタデータ） (2020-10-27T18:41:49Z)
CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文参考訳（メタデータ） (2020-06-03T11:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。