論文の概要: Towards a performance analysis on pre-trained Visual Question Answering
models for autonomous driving
- arxiv url: http://arxiv.org/abs/2307.09329v2
- Date: Fri, 28 Jul 2023 09:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:10:01.002532
- Title: Towards a performance analysis on pre-trained Visual Question Answering
models for autonomous driving
- Title(参考訳): 自律運転のための事前学習した視覚質問応答モデルの性能分析に向けて
- Authors: Kaavya Rekanar, Ciar\'an Eising, Ganesh Sistu, Martin Hayes
- Abstract要約: 本稿では, ViLBERT, ViLT, LXMERT という3つの人気ビジュアル質問応答モデルについて予備解析を行った。
これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。
- 参考スコア(独自算出の注目度): 2.9552300389898094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This short paper presents a preliminary analysis of three popular Visual
Question Answering (VQA) models, namely ViLBERT, ViLT, and LXMERT, in the
context of answering questions relating to driving scenarios. The performance
of these models is evaluated by comparing the similarity of responses to
reference answers provided by computer vision experts. Model selection is
predicated on the analysis of transformer utilization in multimodal
architectures. The results indicate that models incorporating cross-modal
attention and late fusion techniques exhibit promising potential for generating
improved answers within a driving perspective. This initial analysis serves as
a launchpad for a forthcoming comprehensive comparative study involving nine
VQA models and sets the scene for further investigations into the effectiveness
of VQA model queries in self-driving scenarios. Supplementary material is
available at
https://github.com/KaavyaRekanar/Towards-a-performance-analysis-on-pre-trained-VQA-models-for-autono mous-driving.
- Abstract(参考訳): 本稿では, 運転シナリオに関する質問に答える文脈において, VQA(ViLBERT, ViLT, LXMERT)モデルについて予備分析を行った。
これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。
モデル選択はマルチモーダルアーキテクチャにおける変圧器の利用分析に先行する。
その結果, クロスモーダル・アテンションとレイト・フュージョン技術が組み合わさったモデルが, 運転視点で改善される可能性を示すことがわかった。
この最初の分析は、9つのvqaモデルを含む包括的比較研究の発射台となり、自動運転シナリオにおけるvqaモデルクエリの有効性に関するさらなる調査の場となる。
補助材料はhttps://github.com/KaavyaRekanar/Towards-a- Performance-analysis-on-trained-VQA-models-for-autonomous-drivingで入手できる。
関連論文リスト
- Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns [1.3781842574516934]
本研究では,運転関連質問に対するVQAモデルと比較し,人間の注意パターンについて検討した。
本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。
論文 参考訳(メタデータ) (2024-06-13T15:00:17Z) - Deciphering AutoML Ensembles: cattleia's Assistance in Decision-Making [0.0]
Cattleiaは、回帰、マルチクラス、バイナリ分類タスクのアンサンブルを解読するアプリケーションである。
Auto-Sklearn、AutoGluon、FLAMLという3つのAutoMLパッケージで構築されたモデルで動作する。
論文 参考訳(メタデータ) (2024-03-19T11:56:21Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering [11.754328280233628]
我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
本稿では,統一モデルに対するマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-25T19:29:19Z) - Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。
特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。
提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文 参考訳(メタデータ) (2022-08-01T08:58:02Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。