論文の概要: Towards the Human Global Context: Does the Vision-Language Model Really
Judge Like a Human Being?
- arxiv url: http://arxiv.org/abs/2207.08333v1
- Date: Mon, 18 Jul 2022 01:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 02:11:10.658641
- Title: Towards the Human Global Context: Does the Vision-Language Model Really
Judge Like a Human Being?
- Title(参考訳): 人間のグローバルな文脈へ向けて:視覚言語モデルは本当に人間か?
- Authors: Sangmyeong Woh, Jaemin Lee, Ho joong Kim and Jinsuk Lee
- Abstract要約: ビジョンランゲージ(VL)は研究の重要領域になりつつある。
定量的な尺度「等価スコア」と評価データセット「Human Puzzle」を提案する。
文脈理解においてモデルの性能を定量的に測定することを目的としている。
- 参考スコア(独自算出の注目度): 0.8889304968879164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As computer vision and NLP make progress, Vision-Language(VL) is becoming an
important area of research. Despite the importance, evaluation metrics of the
research domain is still at a preliminary stage of development. In this paper,
we propose a quantitative metric "Equivariance Score" and evaluation dataset
"Human Puzzle" to assess whether a VL model is understanding an image like a
human. We observed that the VL model does not interpret the overall context of
an input image but instead shows biases toward a specific object or shape that
forms the local context. We aim to quantitatively measure a model's performance
in understanding context. To verify the current existing VL model's capability,
we sliced the original input image into pieces and randomly placed them,
distorting the global context of the image. Our paper discusses each VL model's
level of interpretation on global context and addresses how the structural
characteristics influenced the results.
- Abstract(参考訳): コンピュータビジョンとNLPが進歩するにつれ、VL(Vision-Language)は研究の重要な領域になりつつある。
この重要性にもかかわらず、研究領域の評価基準はまだ開発の初期段階にある。
本稿では,VLモデルが人間のようなイメージを理解しているかを評価するために,定量的な尺度である「等価スコア」と評価データセット「Human Puzzle」を提案する。
我々は,VLモデルが入力画像全体のコンテキストを解釈するのではなく,局所的なコンテキストを形成する特定の物体や形状に対するバイアスを示すことを観察した。
我々は,文脈理解におけるモデルの性能を定量的に計測することを目的とする。
既存のVLモデルの性能を検証するため、元の入力画像を断片に分割してランダムに配置し、画像のグローバルコンテキストを歪ませた。
本稿では,グローバルコンテキストにおける各VLモデルの解釈レベルについて論じ,構造的特性が結果に与える影響について考察する。
関連論文リスト
- Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Negative Object Presence Evaluation (NOPE) to Measure Object
Hallucination in Vision-Language Models [72.74157242401981]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文 参考訳(メタデータ) (2023-10-09T01:52:27Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Probing the Role of Positional Information in Vision-Language Models [0.0]
多くのVision-Languageモデル(VL)では、画像内のオブジェクトの位置情報(PI)を注入することで、画像構造を理解することができる。
本モデルでは, 位置のみが異なる課題セットにおいて, 画像テキストマッチングタスクにPIを活用できないことを示す。
本研究は, (i) 位置情報事前学習と (ii) 相互モダリティマッチングを用いたPIのコントラスト学習の2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:38:59Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Understanding Attention for Vision-and-Language Tasks [4.752823994295959]
本研究では,アテンションスコア計算手法を検討することで,アテンションアライメントの役割を理解するための包括的な分析を行う。
また、注目スコア計算機構がより(あるいはそれ以下)解釈可能な条件も分析する。
我々の分析は,VLタスクの学習段階に適用した場合の,各アテンションアライメントスコア計算の重要性に関する有用な知見を提供する。
論文 参考訳(メタデータ) (2022-08-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。