論文の概要: A model for full local image interpretation
- arxiv url: http://arxiv.org/abs/2110.08744v1
- Date: Sun, 17 Oct 2021 07:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 06:48:08.361668
- Title: A model for full local image interpretation
- Title(参考訳): フルローカル画像解釈のためのモデル
- Authors: Guy Ben-Yosef, Liav Assif, Daniel Harari, Shimon Ullman
- Abstract要約: 本稿では,シーン内の構成要素の詳細な解釈を提供する人間の能力の計算モデルについて述べる。
我々のモデルは、既存のモデルがフィードフォワードに頼っているが、トップダウン処理に制限があるという事実に関連して、これが基本的な制限であることを示している。
本稿では,人間の視覚解釈モデルとコンピュータビジョンモデルによる視覚解釈モデルの有効性について論じる。
- 参考スコア(独自算出の注目度): 8.048166434189522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a computational model of humans' ability to provide a detailed
interpretation of components in a scene. Humans can identify in an image
meaningful components almost everywhere, and identifying these components is an
essential part of the visual process, and of understanding the surrounding
scene and its potential meaning to the viewer. Detailed interpretation is
beyond the scope of current models of visual recognition. Our model suggests
that this is a fundamental limitation, related to the fact that existing models
rely on feed-forward but limited top-down processing. In our model, a first
recognition stage leads to the initial activation of class candidates, which is
incomplete and with limited accuracy. This stage then triggers the application
of class-specific interpretation and validation processes, which recover richer
and more accurate interpretation of the visible scene. We discuss implications
of the model for visual interpretation by humans and by computer vision models.
- Abstract(参考訳): シーン内の構成要素の詳細な解釈を行う人間の能力の計算モデルについて述べる。
人間は、ほぼ至るところで画像有意義なコンポーネントを識別でき、これらのコンポーネントを識別することは、視覚プロセスの重要な部分であり、周囲のシーンとその潜在的な意味を理解する。
詳細な解釈は、現在の視覚認識モデルの範囲を超えている。
私たちのモデルは、既存のモデルがフィードフォワードだがトップダウン処理に制限があるという事実に関連して、これは基本的な制限であることを示唆している。
本モデルでは,第1の認識段階は,不完全かつ精度の低いクラス候補の初期活性化につながる。
このステージはクラス固有の解釈と検証プロセスの適用をトリガーし、よりリッチで正確な視覚シーンの解釈を回復する。
人間の視覚解釈モデルやコンピュータビジョンモデルによる視覚解釈モデルの有効性について論じる。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Right for the Right Concept: Revising Neuro-Symbolic Concepts by
Interacting with their Explanations [24.327862278556445]
本稿では,意味レベルでのモデル修正を可能にするニューロ・シンボリックシーン表現を提案する。
CLEVR-Hansの実験の結果は、私たちのセマンティックな説明が共同創設者を識別できることを示しています。
論文 参考訳(メタデータ) (2020-11-25T16:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。