Fugu-MT 論文翻訳(概要): VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities

論文の概要: VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities

arxiv url: http://arxiv.org/abs/2408.14895v2
Date: Wed, 28 Aug 2024 01:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 12:58:09.287683
Title: VHAKG: A Multi-modal Knowledge Graph Based on Synchronized Multi-view Videos of Daily Activities
Title（参考訳）: VHAKG: 日常活動の同期的マルチビュー映像に基づくマルチモーダル知識グラフ
Authors: Shusaku Egami, Takahiro Ugai, Swe Nwe Nwe Htun, Ken Fukuda,
Abstract要約: 我々は,日常活動の同期型マルチビューシミュレートビデオに基づくMMKGを構築した。私たちのMMKGには、ビデオフレーム内のボックスのバウンディングなど、フレームごとのきめ細かい変更が含まれています。アプリケーション例として、MMKGが視覚言語モデルのベンチマークを容易にすることを示す。
参考スコア（独自算出の注目度）: 1.8749305679160366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal knowledge graphs (MMKGs), which ground various non-symbolic data (e.g., images and videos) into symbols, have attracted attention as resources enabling knowledge processing and machine learning across modalities. However, the construction of MMKGs for videos consisting of multiple events, such as daily activities, is still in the early stages. In this paper, we construct an MMKG based on synchronized multi-view simulated videos of daily activities. Besides representing the content of daily life videos as event-centric knowledge, our MMKG also includes frame-by-frame fine-grained changes, such as bounding boxes within video frames. In addition, we provide support tools for querying our MMKG. As an application example, we demonstrate that our MMKG facilitates benchmarking vision-language models by providing the necessary vision-language datasets for a tailored task.
Abstract（参考訳）: マルチモーダル・ナレッジグラフ(MMKG)は,モダリティを越えた知識処理や機械学習を実現するリソースとして注目されている。しかし、日々の活動など複数のイベントからなるビデオのためのMMKGの構築はまだ初期段階にある。本稿では,日常活動の同期型マルチビューシミュレートビデオに基づくMMKGを構築する。私たちのMMKGは、日常生活ビデオの内容をイベント中心の知識として表現するだけでなく、ビデオフレーム内のボックスのバウンディングなど、フレームごとのきめ細かい変更も含んでいます。さらに、MMKGをクエリするためのサポートツールも提供しています。アプリケーション例として,我々のMMKGは,適切なタスクに必要となる視覚言語データセットを提供することで,視覚言語モデルのベンチマークを容易にすることを実証する。

関連論文リスト

VAT-KG: Knowledge-Intensive Multimodal Knowledge Graph Dataset for Retrieval-Augmented Generation [3.1033038923749774]
視覚情報,音声情報,テキスト情報を網羅する,概念中心の知識集約型マルチモーダル知識グラフを提案する。構築パイプラインは,マルチモーダルデータと細粒度セマンティクスの相互知識アライメントを保証する。本稿では,任意のモダリティからクエリに応答して,概念レベルの詳細な知識を検索する,新しいマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T07:22:57Z)
From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-09-27T17:38:36Z)
Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning [36.75510196380185]
本稿では,視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を紹介する。 MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供する。本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。
論文参考訳（メタデータ） (2024-06-24T05:14:09Z)
MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。 MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-04-15T05:40:41Z)
The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework [46.69058301083775]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey [61.8716670402084]
本調査は,KG-driven Multi-Modal Learning(KG4MM)とMulti-Modal Knowledge Graph(MM4KG)の2つの主要な側面におけるKG認識研究に焦点を当てる。 KG対応マルチモーダル学習タスクと本質的MMKGタスクの2つの主要なタスクカテゴリについて検討した。これらのタスクの多くに対して、定義、評価ベンチマークを提供し、関連する研究を行うための重要な洞察を概説する。
論文参考訳（メタデータ） (2024-02-08T04:04:36Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文参考訳（メタデータ） (2023-11-15T23:36:42Z)
VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。 InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文参考訳（メタデータ） (2023-10-16T17:05:56Z)
UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文参考訳（メタデータ） (2023-07-31T14:34:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。