Fugu-MT 論文翻訳(概要): Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness

論文の概要: Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness

arxiv url: http://arxiv.org/abs/2407.20845v1
Date: Tue, 30 Jul 2024 14:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 17:00:05.479134
Title: Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness
Title（参考訳）: チャネル効果を用いた画像埋め込みモデルのグラフィカル知覚の評価
Authors: Soohyun Lee, Minsuk Chang, Seokhyeon Park, Jinwook Seo,
Abstract要約: 画像埋め込みモデルの視覚的知覚を評価するための新しい評価フレームワークを提案する。チャート理解のために,様々な視覚チャネルの精度と識別可能性という,チャネルの有効性の2つの主な側面について検討する。 CLIPモデルを用いた実験では、チャンネルの精度が人間と異なることが分かり、長さ、傾き、曲率などのチャンネルで独自の識別性を示す。
参考スコア（独自算出の注目度）: 20.269583912221734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in vision models have greatly improved their ability to handle complex chart understanding tasks, like chart captioning and question answering. However, it remains challenging to assess how these models process charts. Existing benchmarks only roughly evaluate model performance without evaluating the underlying mechanisms, such as how models extract image embeddings. This limits our understanding of the model's ability to perceive fundamental graphical components. To address this, we introduce a novel evaluation framework to assess the graphical perception of image embedding models. For chart comprehension, we examine two main aspects of channel effectiveness: accuracy and discriminability of various visual channels. Channel accuracy is assessed through the linearity of embeddings, measuring how well the perceived magnitude aligns with the size of the stimulus. Discriminability is evaluated based on the distances between embeddings, indicating their distinctness. Our experiments with the CLIP model show that it perceives channel accuracy differently from humans and shows unique discriminability in channels like length, tilt, and curvature. We aim to develop this work into a broader benchmark for reliable visual encoders, enhancing models for precise chart comprehension and human-like perception in future applications.
Abstract（参考訳）: 視覚モデルの最近の進歩は、チャートキャプションや質問応答のような複雑なチャート理解タスクを処理する能力を大幅に改善した。しかし、これらのモデルがどのようにチャートを処理するかを評価することは依然として困難である。既存のベンチマークでは、モデルが画像埋め込みを抽出する方法など、基礎的なメカニズムを評価することなく、モデルのパフォーマンスを大まかに評価するのみである。これにより、基本的なグラフィカルコンポーネントを知覚するモデルの能力に対する理解が制限されます。そこで本研究では,画像埋め込みモデルの視覚的知覚を評価するための新しい評価フレームワークを提案する。チャート理解のために,様々な視覚チャネルの精度と識別可能性という,チャネルの有効性の2つの主な側面について検討する。チャネルの精度は埋め込みの線形性を通じて評価され、知覚される大きさが刺激の大きさとどの程度一致しているかを測定する。識別性は埋め込み間の距離に基づいて評価され、その識別性を示す。 CLIPモデルを用いた実験により, チャネルの精度を人間と異なるものと認識し, 長さ, 傾き, 曲率などのチャネルに特有の識別性を示すことがわかった。我々はこの研究を、信頼性の高いビジュアルエンコーダのためのより広範なベンチマークとして発展させ、将来のアプリケーションにおける正確なチャート理解と人間のような知覚のためのモデルを強化することを目指している。

関連論文リスト

A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
DiffSim: Taming Diffusion Models for Evaluating Visual Similarity [19.989551230170584]
本稿では,生成モデルにおける視覚的類似度を測定するDiffSim法を提案する。 Denoising U-Netの注目層に特徴を合わせることで、DiffSimは外観とスタイルの類似性の両方を評価する。また,Sref と IP ベンチマークを導入し,視覚的類似性の評価を行った。
論文参考訳（メタデータ） (2024-12-19T07:00:03Z)
COSE: A Consistency-Sensitivity Metric for Saliency on Image Classification [21.3855970055692]
本稿では,画像分類タスクにおいて,視覚の先行値を用いてサリエンシ手法の性能を評価する指標について述べる。しかし,ほとんどの手法では,畳み込みモデルよりもトランスフォーマーモデルの方がよく説明できる。
論文参考訳（メタデータ） (2023-09-20T01:06:44Z)
Distance-Aware eXplanation Based Learning [5.578004730855819]
本稿では,学習者が学習データセットの重要な領域に集中するように指導するカテゴリー的損失に対して,距離認識による説明損失を追加する手法を提案する。既存のメトリクスを用いたモデルの評価に加えて,視覚的特徴量に基づくモデル説明を評価するための解釈可能性指標を提案する。
論文参考訳（メタデータ） (2023-09-11T15:33:00Z)
CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a Novel Metric [6.904776368895614]
我々は、CorrEmbedという新しいアプローチを用いて、事前訓練されたコンピュータビジョンモデルから画像埋め込みの有効性を評価する。本研究では,画像埋め込みにおける距離と人為的タグベクトルにおける距離との相関を計算した。また,このパターンからの逸脱を同定し,異なるモデルが高レベル画像の特徴をどのように捉えているかについての洞察を与える。
論文参考訳（メタデータ） (2023-08-30T16:23:07Z)
A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文参考訳（メタデータ） (2023-04-26T17:59:45Z)
Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-11-14T11:17:46Z)
A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文参考訳（メタデータ） (2022-06-17T08:32:43Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。 Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-02T05:40:12Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文参考訳（メタデータ） (2021-02-14T05:28:13Z)
An application of a pseudo-parabolic modeling to texture image recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文参考訳（メタデータ） (2021-02-09T18:08:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。