論文の概要: Garbage in, garbage out: Zero-shot detection of crime using Large
Language Models
- arxiv url: http://arxiv.org/abs/2307.06844v1
- Date: Tue, 4 Jul 2023 01:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 03:16:44.564761
- Title: Garbage in, garbage out: Zero-shot detection of crime using Large
Language Models
- Title(参考訳): garbage in, garbage out: 大きな言語モデルを用いた犯罪のゼロショット検出
- Authors: Anj Simmons, Rajesh Vasa
- Abstract要約: ビデオが(手動で)高品質なテキスト記述に変換されると、大きな言語モデルが犯罪を検出し、分類することができることを示す。
既存のビデオ・テキスト・アプローチでは、推論をサポートするのに十分な品質の映像記述を生成できない。
- 参考スコア(独自算出の注目度): 1.113911383207731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes exploiting the common sense knowledge learned by large
language models to perform zero-shot reasoning about crimes given textual
descriptions of surveillance videos. We show that when video is (manually)
converted to high quality textual descriptions, large language models are
capable of detecting and classifying crimes with state-of-the-art performance
using only zero-shot reasoning. However, existing automated video-to-text
approaches are unable to generate video descriptions of sufficient quality to
support reasoning (garbage video descriptions into the large language model,
garbage out).
- Abstract(参考訳): 本稿では,大規模言語モデルが学習した常識知識を活用し,監視映像のテキスト記述による犯罪に関するゼロショット推論を行う。
ビデオが(手動で)高品質なテキスト記述に変換される場合,大規模な言語モデルでは,ゼロショット推論のみを用いて,最先端のパフォーマンスで犯罪を検出し分類することができる。
しかし、既存の自動ビデオからテキストへのアプローチでは、推論をサポートするのに十分な品質の動画記述を生成することができない(ガベージアウト、大きな言語モデルへのガベージアウトビデオ記述)。
関連論文リスト
- Detection-Fusion for Knowledge Graph Extraction from Videos [49.1574468325115]
本稿では,知識グラフを用いた動画アノテート手法を提案する。
具体的には,この課題に対するディープラーニングモデルを提案する。
また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
論文 参考訳(メタデータ) (2024-12-30T20:26:11Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Zero-shot Natural Language Video Localization [11.522385805128001]
我々は、ゼロショット方式で自然言語ビデオローカライズモデルを訓練する試みを行っている。
教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
論文 参考訳(メタデータ) (2021-08-29T13:21:50Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。