論文の概要: Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
- arxiv url: http://arxiv.org/abs/2504.16788v1
- Date: Wed, 23 Apr 2025 15:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:40:04.723774
- Title: Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation
- Title(参考訳): 説明可能なAIに向けて:ビデオベース画像記述生成のためのマルチモード変換器
- Authors: Lakshita Agarwal, Bindu Verma,
- Abstract要約: 本研究は,ビデオデータセットから自然言語記述を生成する新しいフレームワークを提案する。
提案アーキテクチャでは、ResNet50を使用してビデオフレームから視覚的特徴を抽出する。
抽出された視覚特性はパッチ埋め込みに変換され、エンコーダ・デコーダモデルを介して実行される。
- 参考スコア(独自算出の注目度): 2.186901738997927
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding and analyzing video actions are essential for producing insightful and contextualized descriptions, especially for video-based applications like intelligent monitoring and autonomous systems. The proposed work introduces a novel framework for generating natural language descriptions from video datasets by combining textual and visual modalities. The suggested architecture makes use of ResNet50 to extract visual features from video frames that are taken from the Microsoft Research Video Description Corpus (MSVD), and Berkeley DeepDrive eXplanation (BDD-X) datasets. The extracted visual characteristics are converted into patch embeddings and then run through an encoder-decoder model based on Generative Pre-trained Transformer-2 (GPT-2). In order to align textual and visual representations and guarantee high-quality description production, the system uses multi-head self-attention and cross-attention techniques. The model's efficacy is demonstrated by performance evaluation using BLEU (1-4), CIDEr, METEOR, and ROUGE-L. The suggested framework outperforms traditional methods with BLEU-4 scores of 0.755 (BDD-X) and 0.778 (MSVD), CIDEr scores of 1.235 (BDD-X) and 1.315 (MSVD), METEOR scores of 0.312 (BDD-X) and 0.329 (MSVD), and ROUGE-L scores of 0.782 (BDD-X) and 0.795 (MSVD). By producing human-like, contextually relevant descriptions, strengthening interpretability, and improving real-world applications, this research advances explainable AI.
- Abstract(参考訳): ビデオアクションの理解と分析は、特にインテリジェントな監視や自律システムのようなビデオベースのアプリケーションにおいて、洞察に富んだコンテキスト化された記述を生成するために不可欠である。
本研究は,テキストと視覚のモダリティを組み合わせることで,ビデオデータセットから自然言語記述を生成する新しいフレームワークを提案する。
提案されたアーキテクチャでは、ResNet50を使用して、Microsoft Research Video Description Corpus(MSVD)とBerkeley DeepDrive eXplanation(BDD-X)データセットから取得したビデオフレームから視覚的特徴を抽出する。
抽出された視覚特性はパッチ埋め込みに変換され、生成前訓練トランスフォーマー-2(GPT-2)に基づいたエンコーダデコーダモデルを介して実行される。
テキストおよび視覚的表現の整列と高品質な記述生成を保証するため,多面的自己認識技術とクロスアテンション技術を用いる。
モデルの有効性は,BLEU (1-4), CIDEr, METEOR, ROUGE-Lを用いて評価した。
このフレームワークはBLEU-4スコアの0.755(BDD-X)と0.778(MSVD)、CIDErスコアの1.235(BDD-X)と1.315(MSVD)、METEORスコアの0.312(BDD-X)と0.329(MSVD)、ROUGE-Lスコアの0.782(BDD-X)と0.795(MSVD)の従来の手法よりも優れていた。
ヒューマンライクで文脈に関連のある説明を作成し、解釈可能性を強化し、現実世界のアプリケーションを改善することで、この研究は説明可能なAIを前進させる。
関連論文リスト
- Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism [2.186901738997927]
Tri-FusionNetは、新しい画像記述生成モデルである。
ビジョントランスフォーマー(ViT)エンコーダモジュールとデュアルアテンション機構、BERTアプローチ(RoBERTa)デコーダモジュール、Contrastive Language- Image Pre-Training(CLIP)統合モジュールを統合している。
その結果,Tri-FusionNetによる高品質な画像記述の有効性が示された。
論文 参考訳(メタデータ) (2025-04-23T14:33:29Z) - VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T07:27:19Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - Videoprompter: an ensemble of foundational models for zero-shot video
understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。
本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T19:45:46Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。