論文の概要: Learning Through Little Eyes: Attribute Discrimination Beyond Objects
- arxiv url: http://arxiv.org/abs/2512.18951v1
- Date: Mon, 22 Dec 2025 01:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.570972
- Title: Learning Through Little Eyes: Attribute Discrimination Beyond Objects
- Title(参考訳): 小さな目を通して学ぶ: 対象を超えた属性の識別
- Authors: Patrick Batsell, Tsutsui Satoshi, Bihan Wen,
- Abstract要約: 色、サイズ、テクスチャを体系的に変更し、属性認識の制御テストを可能にするベンチマークを導入する。
どちらのモデルも画像埋め込みにおけるテクスチャを表現するが、テクスチャを言語的にグラウンドグラウンドすることはできず、視覚空間と言語空間のギャップを示唆している。
- 参考スコア(独自算出の注目度): 41.30959143284442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Infants learn to recognize not only object categories but also fine grained attributes such as color, size, and texture within their first two years of life. Prior work explores Childs View for Contrastive Learning (CVCL), a CLIP style model trained on infant egocentric video as a computational model of early infant learning, but it focuses only on class level recognition. This leaves it unclear whether infant scale learning also supports attribute discrimination. To address this, we introduce a benchmark that systematically varies color, size, and texture, allowing controlled tests of within class attribute recognition. Comparing CVCL with CLIP shows clear differences. CVCL is better at size discrimination, while CLIP achieves higher accuracy on color discrimination. Both models represent texture in image embeddings but fail to ground texture linguistically, suggesting a gap between visual and language spaces.
- Abstract(参考訳): 幼児は、対象のカテゴリだけでなく、最初の2年で色、サイズ、テクスチャといったきめ細かい属性を認識することを学ぶ。
幼児向けコントラシブ・ラーニング(CVCL, Childs View for Contrastive Learning)は、幼児のエゴセントリックなビデオに基づいて訓練されたCLIPスタイルのモデルであり、幼児期の学習の計算モデルであるが、クラスレベルの認識のみに焦点を当てている。
このことは、幼児の尺度学習が属性判別もサポートするかどうかもはっきりしない。
そこで本研究では,色,大きさ,テクスチャを体系的に変化させ,クラス属性認識の制御テストを可能にするベンチマークを提案する。
CVCLとCLIPを比較すると明らかな違いがある。
CVCLはサイズ判別に優れており、CLIPは色識別の精度が高い。
どちらのモデルも画像埋め込みにおけるテクスチャを表現するが、テクスチャを言語的にグラウンドグラウンドすることはできず、視覚空間と言語空間のギャップを示唆している。
関連論文リスト
- Can Modern Vision Models Understand the Difference Between an Object and a Look-alike? [10.10422216411379]
CLIPのような視覚言語モデルがこの違いを捉えているかどうかを考察する。
私たちはRoLA(RealまたはLookalike)という名前のデータセットを、リアルで見た目はLookalikeの例にまとめました。
この方向を画像やテキストの埋め込みに適用することで、クロスモーダル検索における識別が向上する。
論文 参考訳(メタデータ) (2025-11-24T15:09:32Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - PerceptionCLIP: Visual Classification by Inferring and Conditioning on Contexts [33.109305627550405]
本稿では,人間の視覚知覚過程からインスピレーションを得る。
トレーニング不要で2段階のゼロショット分類手法であるPerceptionCLIPを提案する。
実験の結果,PerceptionCLIPはより優れた一般化,グループロバスト性,相互運用性を実現することがわかった。
論文 参考訳(メタデータ) (2023-08-02T17:57:25Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。