論文の概要: Language Model Guided Interpretable Video Action Reasoning
- arxiv url: http://arxiv.org/abs/2404.01591v1
- Date: Tue, 2 Apr 2024 02:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:08:16.161639
- Title: Language Model Guided Interpretable Video Action Reasoning
- Title(参考訳): 言語モデルによる解釈可能なビデオアクション推論
- Authors: Ning Wang, Guangming Zhu, HS Li, Liang Zhang, Syed Afaq Ali Shah, Mohammed Bennamoun,
- Abstract要約: 我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
- 参考スコア(独自算出の注目度): 32.999621421295416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural networks have excelled in video action recognition tasks, their black-box nature often obscures the understanding of their decision-making processes. Recent approaches used inherently interpretable models to analyze video actions in a manner akin to human reasoning. These models, however, usually fall short in performance compared to their black-box counterparts. In this work, we present a new framework named Language-guided Interpretable Action Recognition framework (LaIAR). LaIAR leverages knowledge from language models to enhance both the recognition capabilities and the interpretability of video models. In essence, we redefine the problem of understanding video model decisions as a task of aligning video and language models. Using the logical reasoning captured by the language model, we steer the training of the video model. This integrated approach not only improves the video model's adaptability to different domains but also boosts its overall performance. Extensive experiments on two complex video action datasets, Charades & CAD-120, validates the improved performance and interpretability of our LaIAR framework. The code of LaIAR is available at https://github.com/NingWang2049/LaIAR.
- Abstract(参考訳): ニューラルネットワークはビデオ行動認識タスクに優れていますが、ブラックボックスの性質は意思決定プロセスの理解を曖昧にします。
近年のアプローチでは、人間の推論に似た方法でビデオアクションを分析するために、本質的に解釈可能なモデルを用いている。
しかしながら、これらのモデルは通常ブラックボックスのモデルと比べて性能が劣っている。
本研究では,Language-guided Interpretable Action Recognition framework (LaIAR) という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
言語モデルが捉えた論理的推論を用いて、ビデオモデルのトレーニングを操縦する。
この統合されたアプローチは、ビデオモデルの異なるドメインへの適応性を改善するだけでなく、全体的なパフォーマンスも向上させる。
2つの複雑なビデオアクションデータセットであるCharades & CAD-120に関する大規模な実験は、LaIARフレームワークの性能改善と解釈性を検証する。
LaIARのコードはhttps://github.com/NingWang2049/LaIARで公開されている。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - The Llama 3 Herd of Models [356.6353861669039]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。
Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。
Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文 参考訳(メタデータ) (2024-07-31T17:54:27Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文 参考訳(メタデータ) (2021-09-02T11:34:29Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。