Fugu-MT 論文翻訳(概要): Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles

論文の概要: Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles

arxiv url: http://arxiv.org/abs/2312.10209v2
Date: Tue, 16 Jan 2024 19:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 20:05:34.634030
Title: Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles
Title（参考訳）: 経験的ウィンドウリングを超えて:自律走行車における信頼予測のための注意に基づくアプローチ
Authors: Minxue Niu, Zhaobo Zheng, Kumar Akash, Teruhisa Misu
Abstract要約: ウィンドウ化は長い時系列データの局所解析を可能にする手法として広く利用されている。本稿では,ウィンドウプロンプトとマスキングアテンション変換を用いたSelective Windowing Attention Network (SWAN)を提案する。我々は、新しいマルチモーダル運転シミュレーションデータセットにおいて、信頼予測のタスク上でSWANを評価する。
参考スコア（独自算出の注目度）: 5.673263539863265
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Humans' internal states play a key role in human-machine interaction, leading to the rise of human state estimation as a prominent field. Compared to swift state changes such as surprise and irritation, modeling gradual states like trust and satisfaction are further challenged by label sparsity: long time-series signals are usually associated with a single label, making it difficult to identify the critical span of state shifts. Windowing has been one widely-used technique to enable localized analysis of long time-series data. However, the performance of downstream models can be sensitive to the window size, and determining the optimal window size demands domain expertise and extensive search. To address this challenge, we propose a Selective Windowing Attention Network (SWAN), which employs window prompts and masked attention transformation to enable the selection of attended intervals with flexible lengths. We evaluate SWAN on the task of trust prediction on a new multimodal driving simulation dataset. Experiments show that SWAN significantly outperforms an existing empirical window selection baseline and neural network baselines including CNN-LSTM and Transformer. Furthermore, it shows robustness across a wide span of windowing ranges, compared to the traditional windowing approach.
Abstract（参考訳）: 人間の内部状態は人間と機械の相互作用において重要な役割を担い、人間の状態推定が顕著な分野として台頭する。驚きや刺激といった急激な状態の変化と比較して、信頼や満足度といった段階的な状態のモデリングは、ラベルの空間性によってさらに困難になる。ウィンドウ化は長い時系列データの局所解析を可能にする手法として広く利用されている。しかし、下流モデルの性能はウィンドウサイズに敏感であり、最適なウィンドウサイズを決定するにはドメインの専門知識と広範囲な検索が必要である。この課題に対処するために、ウィンドウプロンプトとマスキングアテンション変換を用いたSelective Windowing Attention Network (SWAN)を提案する。我々は、新しいマルチモーダル運転シミュレーションデータセットにおいて、信頼予測のタスク上でSWANを評価する。実験の結果、SWANはCNN-LSTMやTransformerなど、既存の経験的ウィンドウ選択ベースラインとニューラルネットワークベースラインを大きく上回ることがわかった。さらに、従来のウィンドウ化アプローチと比較して、幅広いウィンドウ範囲にわたって堅牢性を示す。

関連論文リスト

Adaptive State-Space Mamba for Real-Time Sensor Data Anomaly Detection [2.922256022514318]
本稿では,リアルタイムセンサデータ異常検出のためのemphAdaptive State-Space Mambaフレームワークを提案する。我々のアプローチは、迅速で信頼性の高い検出機能を必要とする他の時系列タスクに容易に適用できます。
論文参考訳（メタデータ） (2025-03-26T21:37:48Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
Visual Agents as Fast and Slow Thinkers [88.6691504568041]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文参考訳（メタデータ） (2024-08-16T17:44:02Z)
Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文参考訳（メタデータ） (2024-03-31T17:18:57Z)
Factorization Vision Transformer: Modeling Long Range Dependency with Local Window Cost [25.67071603343174]
本稿では,ローカルウィンドウコストと長期依存性モデリング機能の両方の利点を享受できる因子分解自己注意機構を提案する。 FaViTは、入力画像空間分解能に関する線形計算複雑性により、高い性能とロバスト性を達成する。 FaViT-B2は, モデルパラメータを14%削減しつつ, 分類精度を1%, 頑健性を7%向上させる。
論文参考訳（メタデータ） (2023-12-14T02:38:12Z)
Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T16:47:17Z)
Fusion-GRU: A Deep Learning Model for Future Bounding Box Prediction of Traffic Agents in Risky Driving Videos [20.923004256768635]
Fusion-Gated Recurrent Unit (Fusion-GRU)は、将来のバウンディングボックスローカライゼーションのための新しいエンコーダデコーダアーキテクチャである。提案手法は, ROL と HEV-I の2つの公開データセットを用いて評価する。
論文参考訳（メタデータ） (2023-08-12T18:35:59Z)
RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文参考訳（メタデータ） (2023-05-07T09:57:29Z)
DwinFormer: Dual Window Transformers for End-to-End Monocular Depth Estimation [0.5482532589225552]
局所的特徴と大域的特徴の両方を終端単眼深度推定に用いたデュアルウインドウトランスフォーマーネットワークを提案する。 DwinFormerはデュアルウィンドウ自己アテンションとクロスアテンショントランスフォーマー、Dwin-SATとDwin-CATで構成されている。 NYU-Depth-V2データセットとKITTIデータセットの広範な実験により得られた実証的な証拠は、提案手法の優位性を示している。
論文参考訳（メタデータ） (2023-03-06T08:53:22Z)
VSA: Learning Varied-Size Window Attention in Vision Transformers [76.35955924137986]
データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
論文参考訳（メタデータ） (2022-04-18T17:56:07Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
Predicting Pedestrian Crossing Intention with Feature Fusion and Spatio-Temporal Attention [0.0]
歩行者の交差の意図は都市運転のためにリアルタイムで認識されるべきです。最近の研究は、このタスクに視覚ベースのディープニューラルネットワークモデルを使用することの可能性を示している。本研究は,歩行者横断意図予測において,本質的に異なる時間的特徴を融合するニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-04-12T14:10:25Z)
Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文参考訳（メタデータ） (2020-09-16T06:33:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。