論文の概要: Traffic-Domain Video Question Answering with Automatic Captioning
- arxiv url: http://arxiv.org/abs/2307.09636v1
- Date: Tue, 18 Jul 2023 20:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:17:45.233751
- Title: Traffic-Domain Video Question Answering with Automatic Captioning
- Title(参考訳): 自動キャプションによる交通関連ビデオ質問応答
- Authors: Ehsan Qasemi, Jonathan M. Francis, Alessandro Oltramari
- Abstract要約: Video Question Answering (VidQA) は、高度な機械推論機能を促進する重要な可能性を示している。
本稿では,交通領域の知識を大規模ビデオ言語モデルに注入する弱スーパービジョン手法として,交通領域ビデオ質問回答と自動キャプション(TRIVIA)を提案する。
- 参考スコア(独自算出の注目度): 69.98381847388553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VidQA) exhibits remarkable potential in
facilitating advanced machine reasoning capabilities within the domains of
Intelligent Traffic Monitoring and Intelligent Transportation Systems.
Nevertheless, the integration of urban traffic scene knowledge into VidQA
systems has received limited attention in previous research endeavors. In this
work, we present a novel approach termed Traffic-domain Video Question
Answering with Automatic Captioning (TRIVIA), which serves as a
weak-supervision technique for infusing traffic-domain knowledge into large
video-language models. Empirical findings obtained from the SUTD-TrafficQA task
highlight the substantial enhancements achieved by TRIVIA, elevating the
accuracy of representative video-language models by a remarkable 6.5 points
(19.88%) compared to baseline settings. This pioneering methodology holds great
promise for driving advancements in the field, inspiring researchers and
practitioners alike to unlock the full potential of emerging video-language
models in traffic-related applications.
- Abstract(参考訳): Video Question Answering (VidQA)は、インテリジェントトラフィックモニタリングとインテリジェントトランスポーテーションシステムの領域内で、高度なマシン推論機能を促進する上で、大きな可能性を秘めている。
それでも、都市交通現場の知識をVidQAシステムに統合することは、これまでの研究ではあまり注目されなかった。
本稿では,トラヒックドメイン知識を大規模ビデオ言語モデルに流用するための弱いスーパービジョン手法として,トラヒックドメインビデオ質問応答と自動キャプション(trivia)という新しい手法を提案する。
SUTD-TrafficQAタスクから得られた経験的発見は、TRIVIAによって達成された実質的な改善を強調し、ベースライン設定に比べて6.5ポイント(19.88%)の精度を高める。
この先駆的な手法は、この分野の進歩を加速させる大きな可能性を秘めており、研究者や実践者たちも、交通関連アプリケーションにおける新しいビデオ言語モデルの可能性を完全に解き放つように促している。
関連論文リスト
- TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - TrafficGPT: Viewing, Processing and Interacting with Traffic Foundation
Models [10.904594811905778]
TrafficGPTはChatGPTと交通基盤モデルの融合である。
大きな言語モデルとトラフィックの専門知識をシームレスに相互運用することで、TrafficGPTは、この領域でAI機能を活用するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2023-09-13T04:47:43Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - TAU: A Framework for Video-Based Traffic Analytics Leveraging Artificial
Intelligence and Unmanned Aerial Systems [2.748428882236308]
自動トラフィック分析と理解のためのAI統合ビデオ分析フレームワークTAU(Traffic Analysis from UAVs)を開発した。
トラヒックビデオ解析における従来の研究とは違って,ビデオ処理から高解像度UAV画像を用いた高度なトラヒック理解へ向けた自動物体検出・追跡パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:03:44Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Intelligent Traffic Monitoring with Hybrid AI [78.65479854534858]
マルチモーダルコンテキスト理解のためのニューロシンボリックアーキテクチャであるHANSを紹介する。
HANSが交通監視に関わる課題にどのように対処するかを示すとともに,幅広い推論手法と統合可能であることを示す。
論文 参考訳(メタデータ) (2022-08-31T17:47:22Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - AI in Smart Cities: Challenges and approaches to enable road vehicle
automation and smart traffic control [56.73750387509709]
SCCは、活動やユーティリティの自動化と最適化による効率向上を目指すデータ中心の社会を構想しています。
本稿では、SCCにおけるAIの視点を説明し、道路車両の自動化とスマート交通制御を可能にする交通で使用されるAIベースの技術の概要を示す。
論文 参考訳(メタデータ) (2021-04-07T14:31:08Z) - TrafficQA: A Question Answering Benchmark and an Efficient Network for
Video Reasoning over Traffic Events [13.46045177335564]
収集した10,080本のビデオと62,535本のqaペアに基づく,新たなデータセットtrafficqa(traffic question answering)を作成しました。
複雑で実用的であるさまざまな交通イベントに対する推論能力を評価するために, さまざまな交通シナリオに対応する6つの難しい推論タスクを提案する。
また,計算効率が高く,信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。
論文 参考訳(メタデータ) (2021-03-29T12:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。