論文の概要: Vision encoders should be image size agnostic and task driven
- arxiv url: http://arxiv.org/abs/2508.16317v1
- Date: Fri, 22 Aug 2025 11:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.375627
- Title: Vision encoders should be image size agnostic and task driven
- Title(参考訳): 視覚エンコーダは画像サイズに依存しず、タスク駆動でなければならない
- Authors: Nedyalko Prisadnikov, Danda Pani Paudel, Yuqian Fu, Luc Van Gool,
- Abstract要約: 我々は自然界の視覚が効率的である2つの方法に焦点を当てるが、現代の視覚エンコーダはそうではない。
視覚エンコーダは動的で、計算の複雑さは画像のサイズよりも手作業に依存するべきだ、というのが私たちの信念です。
- 参考スコア(独自算出の注目度): 60.09702846704075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that the next generation of vision encoders should be image size agnostic and task driven. The source of our inspiration is biological. Not a structural aspect of biological vision, but a behavioral trait -- efficiency. We focus on a couple of ways in which vision in nature is efficient, but modern vision encoders not. We -- humans and animals -- deal with vast quantities of visual data, and need to be smart where we focus our limited energy -- it depends on the task. It is our belief that vision encoders should be dynamic and the computational complexity should depend on the task at hand rather than the size of the image. We, also, provide concrete first steps towards our vision -- a proof-of-concept solution for image classification. Despite classification being not very representative for what we are trying to achieve, it shows that our approach is feasible and promising.
- Abstract(参考訳): この位置紙は、次世代の視覚エンコーダは画像サイズに依存しず、タスク駆動であるべきだと主張している。
私たちのインスピレーションの源は生物学的です。
生物学的視覚の構造的な側面ではなく、行動的特性 -- 効率性だ。自然界の視覚が効率的である2つの方法に焦点を当てるが、現代の視覚エンコーダはそうではない。人間と動物は、膨大な量の視覚データを処理し、私たちの限られたエネルギーに焦点を絞るスマートさが必要であり、タスクに依存している。
視覚エンコーダは動的で、計算の複雑さは画像のサイズよりも手作業に依存するべきだ、というのが私たちの信念です。
また、イメージ分類のための概念実証ソリューションである、ビジョンに向けた具体的な第一歩も提供します。
分類は私たちが達成しようとしていることをあまり代表していないが、我々のアプローチは実現可能で有望であることを示している。
関連論文リスト
- In Pursuit of Pixel Supervision for Visual Pre-training [60.63095313440605]
Pixioは、最小限の人間のキュレーションで自己キュレーション戦略を備えた、2Bのウェブクローリング画像に基づいて訓練された強化マスク付きオートエンコーダ(MAE)である。
Pixioは、単眼深度推定、フィードフォワード3D再構成、セマンティックセグメンテーション、ロボット学習など、幅広い下流タスクで競争力を発揮する。
この結果から,画素空間の自己教師型学習は有望な代替手段となり,潜在空間アプローチの補完となる可能性が示唆された。
論文 参考訳(メタデータ) (2025-12-17T18:59:58Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - Traces of Image Memorability in Vision Encoders: Activations, Attention Distributions and Autoencoder Losses [5.369009163979958]
本稿では,事前学習した視覚エンコーダにおける画像記憶可能性の相関について検討する。
これらの特徴が記憶可能性とある程度の相関があることが分かりました。
結果は、モデル内部の特徴と記憶可能性の関係に光を当てた。
論文 参考訳(メタデータ) (2025-09-01T13:11:59Z) - Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes [8.941800684473202]
我々は,1000以上のスパースビュー屋内シナリオにおいて,人間にインスパイアされたコビジュアビリティ推論を評価するために設計されたCo-VisiONベンチマークを紹介する。
この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。
本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
論文 参考訳(メタデータ) (2025-06-20T07:42:26Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - A computational approach to visual ecology with deep reinforcement
learning [6.635611625764804]
本稿では,視覚生態学への計算的アプローチの基礎を定めている。
これは、生き残るためのエージェントのドライブから表現と行動がどのように現れるかを示す。
論文 参考訳(メタデータ) (2024-02-07T21:23:47Z) - Energy-Efficient Visual Search by Eye Movement and Low-Latency Spiking
Neural Network [8.380017457339756]
人間の視覚には、非均一解像度網膜、効率的な眼球運動戦略、およびスパイクニューラルネットワーク(SNN)が組み込まれており、視野のサイズ、視覚解像度、エネルギーコスト、推論遅延の要件のバランスをとる。
本稿では,人間の視覚的検索行動を調査し,最初のSNNに基づく視覚的検索モデルを確立する。
このモデルでは,人間に近い,あるいは準最適の固定戦略を学習し,探索速度と精度で人間より優れ,短時間のササード決定待ち時間とスパースアクティベーションによって高いエネルギー効率を達成することができる。
論文 参考訳(メタデータ) (2023-10-10T12:39:10Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。
また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。
VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-02-20T06:35:18Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。