Fugu-MT 論文翻訳(概要): Trends, Applications, and Challenges in Human Attention Modelling

論文の概要: Trends, Applications, and Challenges in Human Attention Modelling

arxiv url: http://arxiv.org/abs/2402.18673v1
Date: Wed, 28 Feb 2024 19:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:51:10.533610
Title: Trends, Applications, and Challenges in Human Attention Modelling
Title（参考訳）: ヒューマン・アテンション・モデリングの動向, 応用, 課題
Authors: Giuseppe Cartella, Marcella Cornia, Vittorio Cuculo, Alessandro D'Amelio, Dario Zanca, Giuseppe Boccignone, Rita Cucchiara
Abstract要約: 人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
参考スコア（独自算出の注目度）: 68.44161974794021
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human attention modelling has proven, in recent years, to be particularly useful not only for understanding the cognitive processes underlying visual exploration, but also for providing support to artificial intelligence models that aim to solve problems in various domains, including image and video processing, vision-and-language applications, and language modelling. This survey offers a reasoned overview of recent efforts to integrate human attention mechanisms into contemporary deep learning models and discusses future research directions and challenges. For a comprehensive overview on the ongoing research refer to our dedicated repository available at https://github.com/aimagelab/awesome-human-visual-attention.
Abstract（参考訳）: 近年、人間の注意モデリングは、視覚探索の基礎となる認知過程を理解するだけでなく、画像や映像処理、視覚言語アプリケーション、言語モデリングなど、様々な領域の問題を解決することを目的とした人工知能モデルのサポートにも特に有用であることが証明されている。本調査は、現代ディープラーニングモデルに人間の注意のメカニズムを統合する最近の取り組みを概観し、今後の研究の方向性と課題について論じるものである。現在進行中の研究の概要については、https://github.com/aimagelab/awesome-human-visual-attention.comで公開しています。

関連論文リスト

Natural Language Generation from Visual Events: Challenges and Future Directions [8.058451580903123]
画像やフレームのシーケンスを扱うNLGタスクは、時間とともに展開する視覚イベント間の複雑な関係をモデル化するより広範な、より一般的な問題の一例である、と我々は主張する。我々は5つの一見異なるタスクを考えており、このより広いマルチモーダル問題の魅力的な事例であると考えている。我々は、言語とビジョンのモデルによる視覚イベントの理解を改善することは、その成長するアプリケーションを考えると、タイムリーかつ必須であると主張している。
論文参考訳（メタデータ） (2025-02-18T16:48:18Z)
Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-12T16:38:40Z)
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.23394353614928]
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文参考訳（メタデータ） (2024-12-11T07:29:04Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文参考訳（メタデータ） (2023-05-09T19:17:07Z)
Foundation Models for Decision Making: Problems, Methods, and Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文参考訳（メタデータ） (2023-03-07T18:44:07Z)
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges [1.565870461096057]
この結果、視覚と言語の統合が多くの注目を集めた。タスクは、深層学習の概念を適切に実証するための方法で作られています。
論文参考訳（メタデータ） (2022-12-26T20:56:01Z)
Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文参考訳（メタデータ） (2022-05-22T14:44:53Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。我々は注意機構研究の今後の方向性を提案する。
論文参考訳（メタデータ） (2021-11-15T09:18:40Z)
Attention, please! A survey of Neural Attention Models in Deep Learning [0.0]
ディープラーニングの最先端は、いくつかのアプリケーションドメインの神経注意モデルによって表されます。この調査は、神経注意モデルの発展の包括的な概要と分析を提供します。
論文参考訳（メタデータ） (2021-03-31T02:42:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。