Fugu-MT 論文翻訳(概要): Vision encoders should be image size agnostic and task driven

論文の概要: Vision encoders should be image size agnostic and task driven

arxiv url: http://arxiv.org/abs/2508.16317v1
Date: Fri, 22 Aug 2025 11:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-25 16:42:36.375627
Title: Vision encoders should be image size agnostic and task driven
Title（参考訳）: 視覚エンコーダは画像サイズに依存しず、タスク駆動でなければならない
Authors: Nedyalko Prisadnikov, Danda Pani Paudel, Yuqian Fu, Luc Van Gool,
Abstract要約: 我々は自然界の視覚が効率的である2つの方法に焦点を当てるが、現代の視覚エンコーダはそうではない。視覚エンコーダは動的で、計算の複雑さは画像のサイズよりも手作業に依存するべきだ、というのが私たちの信念です。
参考スコア（独自算出の注目度）: 60.09702846704075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This position paper argues that the next generation of vision encoders should be image size agnostic and task driven. The source of our inspiration is biological. Not a structural aspect of biological vision, but a behavioral trait -- efficiency. We focus on a couple of ways in which vision in nature is efficient, but modern vision encoders not. We -- humans and animals -- deal with vast quantities of visual data, and need to be smart where we focus our limited energy -- it depends on the task. It is our belief that vision encoders should be dynamic and the computational complexity should depend on the task at hand rather than the size of the image. We, also, provide concrete first steps towards our vision -- a proof-of-concept solution for image classification. Despite classification being not very representative for what we are trying to achieve, it shows that our approach is feasible and promising.
Abstract（参考訳）: この位置紙は、次世代の視覚エンコーダは画像サイズに依存しず、タスク駆動であるべきだと主張している。私たちのインスピレーションの源は生物学的です。生物学的視覚の構造的な側面ではなく、行動的特性 -- 効率性だ。自然界の視覚が効率的である2つの方法に焦点を当てるが、現代の視覚エンコーダはそうではない。人間と動物は、膨大な量の視覚データを処理し、私たちの限られたエネルギーに焦点を絞るスマートさが必要であり、タスクに依存している。視覚エンコーダは動的で、計算の複雑さは画像のサイズよりも手作業に依存するべきだ、というのが私たちの信念です。また、イメージ分類のための概念実証ソリューションである、ビジョンに向けた具体的な第一歩も提供します。分類は私たちが達成しようとしていることをあまり代表していないが、我々のアプローチは実現可能で有望であることを示している。

関連論文リスト

Co-VisiON: Co-Visibility ReasONing on Sparse Image Sets of Indoor Scenes [8.941800684473202]
我々は,1000以上のスパースビュー屋内シナリオにおいて,人間にインスパイアされたコビジュアビリティ推論を評価するために設計されたCo-VisiONベンチマークを紹介する。この結果から,コビジュアビリティは低レベルな特徴マッチングタスクとして扱われることが多いが,スパース条件下での既存の視覚モデルでは依然として困難であることがわかった。本稿では,純視覚モデルにおける最高性能を達成し,プロプライエタリなVLMとのギャップを狭める,新しい多視点ベースラインであるCovisを提案する。
論文参考訳（メタデータ） (2025-06-20T07:42:26Z)
When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
A computational approach to visual ecology with deep reinforcement learning [6.635611625764804]
本稿では,視覚生態学への計算的アプローチの基礎を定めている。これは、生き残るためのエージェントのドライブから表現と行動がどのように現れるかを示す。
論文参考訳（メタデータ） (2024-02-07T21:23:47Z)
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。 InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文参考訳（メタデータ） (2023-09-07T17:56:57Z)
Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文参考訳（メタデータ） (2022-06-20T13:01:46Z)
Visual Attention Network [90.0753726786985]
本稿では,自己アテンションにおける自己適応性および長距離相関を実現するために,新しいカーネルアテンション(LKA)モジュールを提案する。また、LKAに基づく新しいニューラルネットワーク、すなわちVisual Attention Network (VAN)を導入する。 VANは、最先端のビジョントランスフォーマーと畳み込みニューラルネットワークを、広範な実験において大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-02-20T06:35:18Z)
Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文参考訳（メタデータ） (2020-04-03T22:01:41Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。