論文の概要: Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time
- arxiv url: http://arxiv.org/abs/2501.08460v1
- Date: Tue, 14 Jan 2025 22:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:45.738630
- Title: Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time
- Title(参考訳): 空間と時間における事象のグラフ上での推論によるゼロショットと説明可能なビデオ記述に向けて
- Authors: Mihai Masala, Marius Leordeanu,
- Abstract要約: トランスフォーマーはコンピュータビジョンや自然言語処理など、さまざまな領域で事実上のアプローチとなっている。
本稿では,空間的・時間的事象に基づく視覚と言語間の共通基盤を,説明可能かつプログラム的に提案する。
我々のアルゴリズムアプローチは、さまざまなデータセットから収集したビデオに対して、一貫性があり、リッチで、関連するテキスト記述を生成することができることを検証します。
- 参考スコア(独自算出の注目度): 9.750622039291507
- License:
- Abstract: In the current era of Machine Learning, Transformers have become the de facto approach across a variety of domains, such as computer vision and natural language processing. Transformer-based solutions are the backbone of current state-of-the-art methods for language generation, image and video classification, segmentation, action and object recognition, among many others. Interestingly enough, while these state-of-the-art methods produce impressive results in their respective domains, the problem of understanding the relationship between vision and language is still beyond our reach. In this work, we propose a common ground between vision and language based on events in space and time in an explainable and programmatic way, to connect learning-based vision and language state of the art models and provide a solution to the long standing problem of describing videos in natural language. We validate that our algorithmic approach is able to generate coherent, rich and relevant textual descriptions on videos collected from a variety of datasets, using both standard metrics (e.g. Bleu, ROUGE) and the modern LLM-as-a-Jury approach.
- Abstract(参考訳): 機械学習の現在の時代には、トランスフォーマーはコンピュータビジョンや自然言語処理など、さまざまな領域にまたがる事実上のアプローチになっている。
トランスフォーマーベースのソリューションは、言語生成、画像とビデオの分類、セグメンテーション、アクションとオブジェクト認識など、現在最先端の手法のバックボーンである。
興味深いことに、これらの最先端の手法はそれぞれの領域で印象的な結果をもたらすが、視覚と言語の関係を理解するという問題は、まだ我々の手の届かないところにある。
本研究では,空間的・時間的事象に基づく視覚と言語間の共通基盤を提案し,学習に基づく視覚と言語の現状を関連付けるとともに,映像を自然言語で記述する長期的な問題に対する解決策を提供する。
我々のアルゴリズムアプローチは、標準メトリクス(例えば、Bleu, ROUGE)と現代のLLM-as-a-Juryアプローチの両方を用いて、さまざまなデータセットから収集されたビデオに対して、一貫性があり、リッチで関連性の高いテキスト記述を生成することができることを検証した。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - LIFI: Towards Linguistically Informed Frame Interpolation [66.05105400951567]
我々は、複数のディープラーニングビデオ生成アルゴリズムを用いて、欠落したフレームを生成することで、この問題を解決しようとしている。
音声理解のコンピュータビジョン映像生成モデルをテストするために,いくつかのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-10-30T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。