論文の概要: Can Modern Vision Models Understand the Difference Between an Object and a Look-alike?
- arxiv url: http://arxiv.org/abs/2511.19200v2
- Date: Tue, 25 Nov 2025 10:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.461266
- Title: Can Modern Vision Models Understand the Difference Between an Object and a Look-alike?
- Title(参考訳): 近代視覚モデルはオブジェクトとルックアライズの違いを理解することができるか?
- Authors: Itay Cohen, Ethan Fetaya, Amir Rosenfeld,
- Abstract要約: CLIPのような視覚言語モデルがこの違いを捉えているかどうかを考察する。
私たちはRoLA(RealまたはLookalike)という名前のデータセットを、リアルで見た目はLookalikeの例にまとめました。
この方向を画像やテキストの埋め込みに適用することで、クロスモーダル検索における識別が向上する。
- 参考スコア(独自算出の注目度): 10.10422216411379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in computer vision have yielded models with strong performance on recognition benchmarks; however, significant gaps remain in comparison to human perception. One subtle ability is to judge whether an image looks like a given object without being an instance of that object. We study whether vision-language models such as CLIP capture this distinction. We curated a dataset named RoLA (Real or Lookalike) of real and lookalike exemplars (e.g., toys, statues, drawings, pareidolia) across multiple categories, and first evaluate a prompt-based baseline with paired "real"/"lookalike" prompts. We then estimate a direction in CLIP's embedding space that moves representations between real and lookalike. Applying this direction to image and text embeddings improves discrimination in cross-modal retrieval on Conceptual12M, and also enhances captions produced by a CLIP prefix captioner.
- Abstract(参考訳): コンピュータビジョンの最近の進歩は、認識ベンチマークにおいて強力な性能を持つモデルを生み出しているが、人間の知覚と比較して大きな差は残っていない。
微妙な能力の1つは、画像がそのオブジェクトのインスタンスになることなく、あるオブジェクトのように見えるかどうかを判断することである。
CLIPのような視覚言語モデルがこの違いを捉えているかどうかを考察する。
われわれは複数のカテゴリにまたがって、リアル・ルックアライクな模範(おもちゃ、像、絵、パリエイドリア)のRoLA(Real or Lookalike)というデータセットをキュレートし、まず、ペアの「リアル」/「ルックアライク」プロンプトでプロンプトベースのベースラインを評価した。
次に、CLIPの埋め込み空間の方向を推定し、実と類似の表現を移動させる。
この方向を画像やテキストの埋め込みに適用することで、Conceptual12Mでのクロスモーダル検索における識別が向上し、CLIPプレフィックスプレフィックスによって生成されたキャプションも強化される。
関連論文リスト
- Discovering Divergent Representations between Text-to-Image Models [87.40710629963264]
2つの異なる生成モデルによって学習される視覚的表現の時間と方法について検討する。
進化的探索アルゴリズムCompConを導入し、あるモデルの出力において、他のモデルよりもより一般的な視覚特性を探索する。
CompConを使って、人気のあるテキストと画像のモデルを比較し、PixArtが濡れた通りで孤独に言及するプロンプトをどう表現するかといった、異なる表現を見つけます。
論文 参考訳(メタデータ) (2025-09-10T19:07:55Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias [34.005902280160356]
本稿では,CLIPの微調整に使用できる合成反事実画像を生成するための新しいフレームワークを提案する。
精細調整されたCLIPモデルである$CF_alpha$は、画像検索タスクに対してMaxSkew、MinSkew、NDKLなどのキーフェアネス指標を40~66%改善することを示す。
論文 参考訳(メタデータ) (2024-06-17T08:42:19Z) - Pose-Aware Self-Supervised Learning with Viewpoint Trajectory Regularization [40.5076868823241]
本稿では,視点軌跡から得られた隣接画像三重項の新たなデータセットを提案する。
同じ視覚的特徴に対して意味分類とポーズ推定の精度をベンチマークする。
本実験は,オブジェクトの同一性を符号化した視覚表現の開発に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-22T06:04:11Z) - Seeing the Unseen: Visual Common Sense for Semantic Placement [71.76026880991245]
画像が与えられたら、視覚システムは、その物体が置かれたり、人間によって配置される可能性がある画像の意味論的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、ロボットやARデバイス(ユーザーの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
論文 参考訳(メタデータ) (2024-01-15T15:28:30Z) - PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts [33.109305627550405]
本稿では,人間の視覚知覚過程からインスピレーションを得る。
トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,相互運用性を実現することがわかった。
論文 参考訳(メタデータ) (2023-08-02T17:57:25Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。