論文の概要: Towards the Human Global Context: Does the Vision-Language Model Really
Judge Like a Human Being?
- arxiv url: http://arxiv.org/abs/2207.08333v1
- Date: Mon, 18 Jul 2022 01:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 02:11:10.658641
- Title: Towards the Human Global Context: Does the Vision-Language Model Really
Judge Like a Human Being?
- Title(参考訳): 人間のグローバルな文脈へ向けて:視覚言語モデルは本当に人間か?
- Authors: Sangmyeong Woh, Jaemin Lee, Ho joong Kim and Jinsuk Lee
- Abstract要約: ビジョンランゲージ(VL)は研究の重要領域になりつつある。
定量的な尺度「等価スコア」と評価データセット「Human Puzzle」を提案する。
文脈理解においてモデルの性能を定量的に測定することを目的としている。
- 参考スコア(独自算出の注目度): 0.8889304968879164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As computer vision and NLP make progress, Vision-Language(VL) is becoming an
important area of research. Despite the importance, evaluation metrics of the
research domain is still at a preliminary stage of development. In this paper,
we propose a quantitative metric "Equivariance Score" and evaluation dataset
"Human Puzzle" to assess whether a VL model is understanding an image like a
human. We observed that the VL model does not interpret the overall context of
an input image but instead shows biases toward a specific object or shape that
forms the local context. We aim to quantitatively measure a model's performance
in understanding context. To verify the current existing VL model's capability,
we sliced the original input image into pieces and randomly placed them,
distorting the global context of the image. Our paper discusses each VL model's
level of interpretation on global context and addresses how the structural
characteristics influenced the results.
- Abstract(参考訳): コンピュータビジョンとNLPが進歩するにつれ、VL(Vision-Language)は研究の重要な領域になりつつある。
この重要性にもかかわらず、研究領域の評価基準はまだ開発の初期段階にある。
本稿では,VLモデルが人間のようなイメージを理解しているかを評価するために,定量的な尺度である「等価スコア」と評価データセット「Human Puzzle」を提案する。
我々は,VLモデルが入力画像全体のコンテキストを解釈するのではなく,局所的なコンテキストを形成する特定の物体や形状に対するバイアスを示すことを観察した。
我々は,文脈理解におけるモデルの性能を定量的に計測することを目的とする。
既存のVLモデルの性能を検証するため、元の入力画像を断片に分割してランダムに配置し、画像のグローバルコンテキストを歪ませた。
本稿では,グローバルコンテキストにおける各VLモデルの解釈レベルについて論じ,構造的特性が結果に与える影響について考察する。
関連論文リスト
- VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models [7.949705607963995]
視覚言語モデル(VLM)はロボット工学の応用においてかなりの進歩を見せている。
VLMのゼロショット機能を活用し、6次元オブジェクトポーズ推定に変換する。
本稿では,言語埋め込みを用いたゼロショット6Dオブジェクトのポーズ推定のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:15:39Z) - CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding [2.524887615873207]
本研究では,様々な視覚言語モデル(VL)による文脈依存動詞句の理解能力について検討した。
CV-Probesデータセットには,文脈依存動詞を用いた画像キャプチャペアが組み込まれている。
モデル予測に対する動詞トークンの寄与を評価するためにMM-SHAP評価を用いる。
論文 参考訳(メタデータ) (2024-09-02T17:39:26Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。