論文の概要: VisAnalog: A Diagnostic Suite for Visual Concept Transfer on Natural Images
- arxiv url: http://arxiv.org/abs/2605.23141v1
- Date: Fri, 22 May 2026 01:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.152841
- Title: VisAnalog: A Diagnostic Suite for Visual Concept Transfer on Natural Images
- Title(参考訳): VisAnalog:自然画像の視覚的概念伝達のための診断ツール
- Authors: Zhaonan Li, Kyle R. Chickering, Bangzheng Li, Jacob Dineen, Xiao Ye, Zhikun Xu, Shijie Lu, Yuxi Huang, Ming Shen, Bach Nguyen, Jaya Adithya Pavuluri, Mau Son Nguyen, Sanika Chavan, Ngoc Minh Thu Le, Muhao Chen, Ben Zhou,
- Abstract要約: 視覚的概念学習の有用なテストは、モデルが単一のイメージで概念を認識できるかどうかだけでなく、変換の下で概念レベルの特性を保存および操作できるかどうかである。
自然画像のこの設定のための制御スイートであるVis Analogを紹介する。
- 参考スコア(独自算出の注目度): 22.679919244402345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A useful test of visual concept learning is not just whether a model can recognize a concept in a single image, but whether it can preserve and manipulate concept-level properties under transformation and transfer them to new scenes. We introduce VisAnalog, a controlled suite for this setting on natural images. Each example instantiates $A\!:\!B::C\!:\,?$: images $B$ and a hidden target image $D$ are produced by applying the same deterministic transformation sequence to source images $A$ and $C$. Given $A$, $B$, and $C$, a model must answer a multiple-choice question about $D$. The benchmark contains 617 human-validated questions spanning one- to four-step transformations such as zoom, quadrant swap, rotation, flip, and hue rotation. Across strong proprietary and open-source VLMs, end-to-end accuracy is substantially lower than oracle accuracy when $D$ is directly shown, and degrades sharply as transformation depth increases, while human performance remains near the ceiling. A program-conditioned evaluation further separates failures of relation inference from failures of transformation application, showing that inferring the visual relation from $A \rightarrow B$ is the dominant bottleneck, with additional application errors emerging on harder multi-step cases. The dataset is publicly available at https://huggingface.co/datasets/zli99/VisAnalog.
- Abstract(参考訳): 視覚的概念学習の有用なテストは、モデルがひとつのイメージで概念を認識できるかどうかだけではなく、変換中の概念レベルのプロパティを保存および操作し、それらを新しいシーンに転送できるかどうかである。
自然画像のこの設定のための制御スイートであるVisAnalogを紹介する。
各例は$A\!
: !
B::C\!
は?
イメージ$B$と隠されたターゲットイメージ$D$は、ソースイメージ$A$と$C$に同じ決定論的変換シーケンスを適用することで生成される。
A$、B$、C$が与えられた場合、モデルは$D$に関する複数の質問に答えなければならない。
このベンチマークには、ズーム、四段スワップ、ローテーション、フリップ、色相回転などの1段階から4段階の変換にまたがる617の有能な質問が含まれている。
プロプライエタリでオープンソースなVLMでは、D$を直接表示した場合、エンドツーエンドの精度はオラクルの精度よりも大幅に低くなり、変換深度が増大するにつれて著しく低下する一方、人的性能は天井付近に留まる。
プログラム条件付き評価では、関係推論の失敗と変換アプリケーションの失敗をさらに分離し、より難しいマルチステップのケースで追加のアプリケーションエラーが発生することで、$A \rightarrow B$から視覚的関係を推測することが主要なボトルネックであることを示した。
データセットはhttps://huggingface.co/datasets/zli99/VisAnalogで公開されている。
関連論文リスト
- An Empirical Study of $μ$P Learning Rate Transfer [0.0]
実際に,$mu$-Transfer法によってほぼ最適な学習率が得られることを示す。
明らかな約束にもかかわらず、$mu$P メソッドはまだ広く採用されていない。
論文 参考訳(メタデータ) (2024-04-08T17:59:44Z) - Describing Differences in Image Sets with Natural Language [101.80939666230168]
モデルの振る舞いを理解し、データセットを分析するためには、セットレベルの差異を識別することが不可欠である。
本稿では、まずイメージをキャプションし、言語モデルに差分記述を提案するVisDiffを紹介する。
データセットとモデルにこれまで知られていなかった興味深い違いを見つけることができ、微妙な洞察を明らかにする上で、VisDiffの実用性を示すことができます。
論文 参考訳(メタデータ) (2023-12-05T18:59:16Z) - Efficient Conditionally Invariant Representation Learning [41.320360597120604]
Conditional Independence Regression CovariancE (CIRCE)
条件付き特徴依存の尺度は、特徴学習の各ステップに複数の回帰を必要とする。
実験では,従来のベンチマーク手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-16T18:39:32Z) - $\beta$-Multivariational Autoencoder for Entangled Representation
Learning in Video Frames [1.802128767754695]
そこで本研究では,オブジェクト追跡タスクに対処するためのパラメータセットをセットとして,動画におけるオブジェクトの動きの新たな定式化を提案する。
$beta$MVAEは、フレームパッチから直接$p = N(mu, Sigma)$を学習するために開発された。
私たちのネットワークは、ビデオフレームを85万フレーム以上($MVUnet)と78万ステップ($MVAE)でゼロからトレーニングされています。
論文 参考訳(メタデータ) (2022-11-22T23:25:17Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints [3.7660066212240753]
ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
セマンティック$Q、K$、および$V$埋め込みの十分な考慮は、性能低下につながるかもしれない。
我々は、$Q$、$K$、$V$埋め込みの3種類の構造を提案する。
論文 参考訳(メタデータ) (2021-11-19T02:54:57Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。