論文の概要: Improving Unsupervised Task-driven Models of Ventral Visual Stream via Relative Position Predictivity
- arxiv url: http://arxiv.org/abs/2505.08316v1
- Date: Tue, 13 May 2025 07:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.477208
- Title: Improving Unsupervised Task-driven Models of Ventral Visual Stream via Relative Position Predictivity
- Title(参考訳): 相対的位置予測による心的視覚ストリームの教師なしタスク駆動モデルの改善
- Authors: Dazhong Rong, Hao Dong, Xing Gao, Jiyu Wei, Di Hong, Yaoyao Hao, Qinming He, Yueming Wang,
- Abstract要約: 本稿では,相対位置(RP)予測という,VVSを含む追加機能を導入する。
本稿では,VVSをモデル化するための教師なしタスク駆動手法を提案する。
- 参考スコア(独自算出の注目度): 13.047959761413992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on the concept that ventral visual stream (VVS) mainly functions for object recognition, current unsupervised task-driven methods model VVS by contrastive learning, and have achieved good brain similarity. However, we believe functions of VVS extend beyond just object recognition. In this paper, we introduce an additional function involving VVS, named relative position (RP) prediction. We first theoretically explain contrastive learning may be unable to yield the model capability of RP prediction. Motivated by this, we subsequently integrate RP learning with contrastive learning, and propose a new unsupervised task-driven method to model VVS, which is more inline with biological reality. We conduct extensive experiments, demonstrating that: (i) our method significantly improves downstream performance of object recognition while enhancing RP predictivity; (ii) RP predictivity generally improves the model brain similarity. Our results provide strong evidence for the involvement of VVS in location perception (especially RP prediction) from a computational perspective.
- Abstract(参考訳): 腹側視覚ストリーム(VVS)は主に物体認識のために機能するという考えに基づいて、現在の教師なしタスク駆動手法は対照的な学習によってVVSをモデル化し、優れた脳類似性を実現している。
しかし、VVSの機能は単なるオブジェクト認識以上のものとなると信じている。
本稿では,相対位置(RP)予測という,VVSを含む付加機能を紹介する。
まず、比較学習がRP予測のモデル能力を得ることができないかもしれないことを理論的に説明する。
そこで我々は, RP学習を対照的な学習と統合し, VVSをモデル化するための新しい教師なしタスク駆動手法を提案する。
広範な実験を行い、それを実証します。
提案手法は,RP予測性を高めつつ,物体認識の下流性能を著しく向上させる。
(ii) RP予測は一般にモデル脳の類似性を改善する。
以上の結果から,VVSが位置認識(特にRP予測)に深く関与していることが示唆された。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Prior Learning in Introspective VAEs [26.51505732100697]
変分オートエンコーダ(VAE)は教師なし学習とデータ生成のための一般的なフレームワークである。
本研究では,Soft-IntroVAEに着目し,マルチモーダルで学習可能なフレームワークをこのフレームワークに組み込むことの意味について検討する。
論文 参考訳(メタデータ) (2024-08-25T10:54:25Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。