論文の概要: Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns
- arxiv url: http://arxiv.org/abs/2406.09203v1
- Date: Thu, 13 Jun 2024 15:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:14:49.368804
- Title: Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns
- Title(参考訳): 運転のための視覚的質問応答モデルの最適化:人間と機械の注意パターンのギャップを埋める
- Authors: Kaavya Rekanar, Martin Hayes, Ganesh Sistu, Ciaran Eising,
- Abstract要約: 本研究では,運転関連質問に対するVQAモデルと比較し,人間の注意パターンについて検討した。
本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。
- 参考スコア(独自算出の注目度): 1.3781842574516934
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering (VQA) models play a critical role in enhancing the perception capabilities of autonomous driving systems by allowing vehicles to analyze visual inputs alongside textual queries, fostering natural interaction and trust between the vehicle and its occupants or other road users. This study investigates the attention patterns of humans compared to a VQA model when answering driving-related questions, revealing disparities in the objects observed. We propose an approach integrating filters to optimize the model's attention mechanisms, prioritizing relevant objects and improving accuracy. Utilizing the LXMERT model for a case study, we compare attention patterns of the pre-trained and Filter Integrated models, alongside human answers using images from the NuImages dataset, gaining insights into feature prioritization. We evaluated the models using a Subjective scoring framework which shows that the integration of the feature encoder filter has enhanced the performance of the VQA model by refining its attention mechanisms.
- Abstract(参考訳): 視覚質問応答(VQA)モデルは、車両がテキストクエリと並行して視覚入力を解析し、車両とその利用者または他の道路利用者との自然な相互作用と信頼を促進することによって、自律運転システムの知覚能力を高める上で重要な役割を担っている。
本研究では、運転関連質問に答える際のVQAモデルと比較して、人間の注意パターンについて検討し、観察対象の相違を明らかにする。
本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。
ケーススタディにおいて,LXMERTモデルを用いて,NuImagesデータセットの画像を用いた人間の回答とともに,事前学習およびフィルタ統合モデルの注意パターンを比較し,特徴優先順位付けの洞察を得た。
我々は,特徴エンコーダフィルタの統合により,その注意機構を改良することにより,VQAモデルの性能が向上したことを示す主観的スコアリングフレームワークを用いてモデルを評価した。
関連論文リスト
- Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Deciphering AutoML Ensembles: cattleia's Assistance in Decision-Making [0.0]
Cattleiaは、回帰、マルチクラス、バイナリ分類タスクのアンサンブルを解読するアプリケーションである。
Auto-Sklearn、AutoGluon、FLAMLという3つのAutoMLパッケージで構築されたモデルで動作する。
論文 参考訳(メタデータ) (2024-03-19T11:56:21Z) - Towards a performance analysis on pre-trained Visual Question Answering
models for autonomous driving [2.9552300389898094]
本稿では, ViLBERT, ViLT, LXMERT という3つの人気ビジュアル質問応答モデルについて予備解析を行った。
これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。
論文 参考訳(メタデータ) (2023-07-18T15:11:40Z) - Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction
model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文 参考訳(メタデータ) (2023-05-31T09:19:55Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - VisQA: X-raying Vision and Language Reasoning in Transformers [10.439369423744708]
最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。
VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
論文 参考訳(メタデータ) (2021-04-02T08:08:25Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。