論文の概要: From Vision To Language through Graph of Events in Space and Time: An Explainable Self-supervised Approach
- arxiv url: http://arxiv.org/abs/2507.04815v1
- Date: Mon, 07 Jul 2025 09:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.358572
- Title: From Vision To Language through Graph of Events in Space and Time: An Explainable Self-supervised Approach
- Title(参考訳): 空間と時間における事象のグラフによる視覚から言語へ:説明可能な自己監督的アプローチ
- Authors: Mihai Masala, Marius Leordeanu,
- Abstract要約: 自然言語でビデオコンテンツを記述するタスクは、一般にビデオキャプションと呼ばれる。
通常のビデオキャプションと異なり、短くて広く公開されているが、自然言語による長文の説明は少ない。
- 参考スコア(独自算出の注目度): 9.750622039291507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of describing video content in natural language is commonly referred to as video captioning. Unlike conventional video captions, which are typically brief and widely available, long-form paragraph descriptions in natural language are scarce. This limitation of current datasets is due to the expensive human manual annotation required and to the highly challenging task of explaining the language formation process from the perspective of the underlying story, as a complex system of interconnected events in space and time. Through a thorough analysis of recently published methods and available datasets, we identify a general lack of published resources dedicated to the problem of describing videos in complex language, beyond the level of descriptions in the form of enumerations of simple captions. Furthermore, while state-of-the-art methods produce impressive results on the task of generating shorter captions from videos by direct end-to-end learning between the videos and text, the problem of explaining the relationship between vision and language is still beyond our reach. In this work, we propose a shared representation between vision and language, based on graphs of events in space and time, which can be obtained in an explainable and analytical way, to integrate and connect multiple vision tasks to produce the final natural language description. Moreover, we also demonstrate how our automated and explainable video description generation process can function as a fully automatic teacher to effectively train direct, end-to-end neural student pathways, within a self-supervised neuro-analytical system. We validate that our explainable neuro-analytical approach generates coherent, rich and relevant textual descriptions on videos collected from multiple varied datasets, using both standard evaluation metrics, human annotations and consensus from ensembles of state-of-the-art VLMs.
- Abstract(参考訳): 自然言語でビデオコンテンツを記述するタスクは、一般にビデオキャプションと呼ばれる。
通常のビデオキャプションと異なり、短くて広く公開されているが、自然言語による長文の説明は少ない。
この現在のデータセットの制限は、高コストな人手によるアノテーションが必要であり、空間と時間における相互接続イベントの複雑なシステムとして、基礎となるストーリーの観点から言語の形成プロセスを説明するという非常に難しい作業のためである。
最近公開された手法と利用可能なデータセットの徹底的な分析を通じて、簡単なキャプションの列挙形式による記述のレベルを超えて、複雑な言語でビデオを記述する問題にまつわる一般的なリソースの欠如を識別する。
さらに、現状の手法は、ビデオとテキスト間の直接のエンドツーエンド学習によって、ビデオから短い字幕を生成するタスクにおいて印象的な結果をもたらすが、視覚と言語の関係を説明するという問題は、まだ我々の手の届かないところにある。
本研究では,空間的・時間的事象のグラフに基づく視覚と言語間の共有表現を提案し,複数の視覚タスクを統合して,最終的な自然言語記述を生成する。
さらに、我々の自動的、説明可能なビデオ記述生成プロセスが、完全に自動化された教師として機能し、自己教師型神経分析システム内で、直接的、エンドツーエンドの神経学生経路を効果的に訓練することができることを実証する。
我々は,複数のデータセットから収集したビデオのコヒーレントでリッチで関連性の高いテキスト記述を,標準的な評価指標,人間のアノテーション,そして最先端のVLMのアンサンブルからのコンセンサスを用いて生成することを検証する。
関連論文リスト
- Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time [9.750622039291507]
トランスフォーマーはコンピュータビジョンや自然言語処理など、さまざまな領域で事実上のアプローチとなっている。
本稿では,空間的・時間的事象に基づく視覚と言語間の共通基盤を,説明可能かつプログラム的に提案する。
我々のアルゴリズムアプローチは、さまざまなデータセットから収集したビデオに対して、一貫性があり、リッチで、関連するテキスト記述を生成することができることを検証します。
論文 参考訳(メタデータ) (2025-01-14T22:09:06Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。