論文の概要: From Videos to Indexed Knowledge Graphs -- Framework to Marry Methods for Multimodal Content Analysis and Understanding
- arxiv url: http://arxiv.org/abs/2510.01513v1
- Date: Wed, 01 Oct 2025 23:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.898047
- Title: From Videos to Indexed Knowledge Graphs -- Framework to Marry Methods for Multimodal Content Analysis and Understanding
- Title(参考訳): ビデオから索引付き知識グラフへ -マルチモーダルコンテンツ分析と理解のためのフレームワークから結婚方法へ-
- Authors: Basem Rizk, Joel Walsh, Mark Core, Benjamin Nye,
- Abstract要約: マルチモーダルコンテンツ分析のための効率的なプロトタイピングパイプラインを実現するフレームワークを提案する。
パイプラインの候補レシピを作成し、事前訓練されたモデルのセットを組み、ビデオを時間的半構造化データフォーマットに変換する。
さらに,この構造を,問合せが可能で連続学習をサポートするフレームレベルのインデックス付き知識グラフ表現に変換する。
- 参考スコア(独自算出の注目度): 1.1645023309093054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analysis of multi-modal content can be tricky, computationally expensive, and require a significant amount of engineering efforts. Lots of work with pre-trained models on static data is out there, yet fusing these opensource models and methods with complex data such as videos is relatively challenging. In this paper, we present a framework that enables efficiently prototyping pipelines for multi-modal content analysis. We craft a candidate recipe for a pipeline, marrying a set of pre-trained models, to convert videos into a temporal semi-structured data format. We translate this structure further to a frame-level indexed knowledge graph representation that is query-able and supports continual learning, enabling the dynamic incorporation of new domain-specific knowledge through an interactive medium.
- Abstract(参考訳): マルチモーダルコンテンツの分析は難易度が高く、計算コストも高く、かなりの量のエンジニアリング努力を必要とする。
静的データに関する事前訓練されたモデルに関する作業は数多くあるが、ビデオのような複雑なデータでこれらのオープンソースモデルとメソッドを融合させることは比較的難しい。
本稿では,マルチモーダルコンテンツ分析のための効率的なプロトタイピングパイプラインを実現するフレームワークを提案する。
パイプラインの候補レシピを作成し、事前訓練されたモデルのセットを組み、ビデオを時間的半構造化データフォーマットに変換する。
この構造を,問合せが可能で連続学習をサポートするフレームレベルインデックス付き知識グラフ表現に変換し,対話型媒体を通じて新たなドメイン固有知識を動的に組み込むことを可能にする。
関連論文リスト
- FameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。
TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Learning Video Instance Segmentation with Recurrent Graph Neural
Networks [39.06202374530647]
本稿では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。
私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。
われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-07T18:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。