論文の概要: DAOS: A Multimodal In-cabin Behavior Monitoring with Driver Action-Object Synergy Dataset
- arxiv url: http://arxiv.org/abs/2601.11990v1
- Date: Sat, 17 Jan 2026 09:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.408425
- Title: DAOS: A Multimodal In-cabin Behavior Monitoring with Driver Action-Object Synergy Dataset
- Title(参考訳): DAOS:ドライバアクションオブジェクトのシナジーデータセットを用いたマルチモーダルインキャビン動作監視
- Authors: Yiming Li, Chen Cai, Tianyi Liu, Dan Lin, Wenqian Wang, Wenfei Liang, Bingbing Li, Kim-Hui Yap,
- Abstract要約: Action-Object-Relation Network (AOR-Net)は、複雑なドライバアクションを多レベル推論によって理解する。
我々のモデルは、様々なデータセット上で、他の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 35.77269125916539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In driver activity monitoring, movements are mostly limited to the upper body, which makes many actions look similar. To tell these actions apart, human often rely on the objects the driver is using, such as holding a phone compared with gripping the steering wheel. However, most existing driver-monitoring datasets lack accurate object-location annotations or do not link objects to their associated actions, leaving a critical gap for reliable action recognition. To address this, we introduce the Driver Action with Object Synergy (DAOS) dataset, comprising 9,787 video clips annotated with 36 fine-grained driver actions and 15 object classes, totaling more than 2.5 million corresponding object instances. DAOS offers multi-modal, multi-view data (RGB, IR, and depth) from front, face, left, and right perspectives. Although DAOS captures a wide range of cabin objects, only a few are directly relevant to each action for prediction, so focusing on task-specific human-object relations is essential. To tackle this challenge, we propose the Action-Object-Relation Network (AOR-Net). AOR-Net comprehends complex driver actions through multi-level reasoning and a chain-of-action prompting mechanism that models the logical relationships among actions, objects, and their relations. Additionally, the Mixture of Thoughts module is introduced to dynamically select essential knowledge at each stage, enhancing robustness in object-rich and object-scarce conditions. Extensive experiments demonstrate that our model outperforms other state-of-the-art methods on various datasets.
- Abstract(参考訳): 運転活動監視では、動作は上半身に限られており、多くの動作が似ている。
これらの動作を区別するために、人間は運転者が使っている物体に依存していることが多い。
しかしながら、既存のドライバ監視データセットのほとんどは、正確なオブジェクト位置アノテーションを欠いているか、関連するアクションにオブジェクトをリンクしていないため、信頼性の高いアクション認識には重大なギャップが残っている。
これを解決するために、36のきめ細かいドライバアクションと15のオブジェクトクラスを注釈付けした9,787の動画クリップと、250万以上の対応するオブジェクトインスタンスからなる、DAOS(Dead Action with Object Synergy)データセットを導入しました。
DAOSは、正面、顔、左、右からのマルチモーダル、マルチビューデータ(RGB、IR、ディープ)を提供する。
DAOSは広い範囲のキャビンオブジェクトをキャプチャするが、予測のために各アクションに直接関連しているものはほとんどないため、タスク固有の人間とオブジェクトの関係に焦点を合わせることが不可欠である。
この課題に対処するため、我々はAOR-Net(Action-Object-Relation Network)を提案する。
AOR-Netは、多レベル推論と、アクション、オブジェクト、およびそれらの関係の間の論理的関係をモデル化するチェーン・オブ・アクション・プロンプト機構を通じて、複雑なドライバアクションを理解する。
さらに、Mixture of Thoughtsモジュールは、各段階で重要な知識を動的に選択し、オブジェクトリッチおよびオブジェクトスカース条件における堅牢性を高めるために導入された。
大規模な実験により、我々のモデルは様々なデータセット上で他の最先端の手法よりも優れていることが示された。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。