論文の概要: GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking
- arxiv url: http://arxiv.org/abs/2602.17555v1
- Date: Thu, 19 Feb 2026 17:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.229718
- Title: GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking
- Title(参考訳): GraphThinker: イベントグラフ思考によるビデオ推論の強化
- Authors: Zixu Cheng, Da Li, Jian Hu, Ziquan Liu, Wei Li, Shaogang Gong,
- Abstract要約: ビデオ推論では、ビデオ内のイベント間の因果関係を理解する必要がある。
既存のマルチモーダル大言語モデル(MLLM)は、しばしば高密度キャプションやビデオ要約を通してイベント関係を推測する。
構造化イベントレベルシーングラフを構成する強化微調整法であるGraphThinkerを提案する。
- 参考スコア(独自算出の注目度): 36.15937247044457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video reasoning requires understanding the causal relationships between events in a video. However, such relationships are often implicit and costly to annotate manually. While existing multimodal large language models (MLLMs) often infer event relations through dense captions or video summaries for video reasoning, such modeling still lacks causal understanding. Without explicit causal structure modeling within and across video events, these models suffer from hallucinations during the video reasoning. In this work, we propose GraphThinker, a reinforcement finetuning-based method that constructs structural event-level scene graphs and enhances visual grounding to jointly reduce hallucinations in video reasoning. Specifically, we first employ an MLLM to construct an event-based video scene graph (EVSG) that explicitly models both intra- and inter-event relations, and incorporate these formed scene graphs into the MLLM as an intermediate thinking process. We also introduce a visual attention reward during reinforcement finetuning, which strengthens video grounding and further mitigates hallucinations. We evaluate GraphThinker on two datasets, RexTime and VidHalluc, where it shows superior ability to capture object and event relations with more precise event localization, reducing hallucinations in video reasoning compared to prior methods.
- Abstract(参考訳): ビデオ推論では、ビデオ内のイベント間の因果関係を理解する必要がある。
しかし、このような関係はしばしば暗黙的であり、手動で注釈をつけるのに費用がかかる。
既存のマルチモーダル大言語モデル(MLLM)は、しばしばビデオ推論のための高密度キャプションやビデオ要約を通してイベント関係を推測するが、そのようなモデリングには因果的理解が欠けている。
ビデオイベント内およびビデオイベント間の明確な因果構造モデリングがなければ、これらのモデルはビデオ推論中に幻覚に悩まされる。
本研究では,構造化イベントレベルシーングラフを構築し,視覚的グラウンド化を強化し,映像推論における幻覚の低減を図るための強化微調整法であるGraphThinkerを提案する。
具体的には、まずMLLMを用いてイベントベース映像シーングラフ(EVSG)を構築し、イベント内およびイベント間関係の両方を明示的にモデル化し、これらの生成したシーングラフを中間思考プロセスとしてMLLMに組み込む。
また,強化微視化時の視覚的注意報酬も導入し,映像のグラウンド化を強化し,幻覚を緩和する。
RexTimeとVidHallucの2つのデータセット上でGraphThinkerを評価し、より正確なイベントローカライゼーションによってオブジェクトとイベントの関係をキャプチャし、従来の手法と比較してビデオ推論における幻覚を低減できることを示す。
関連論文リスト
- VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models [8.155587933125673]
既存の研究は、主にビデオ内のイベント、オブジェクト、シーンの存在に関する幻覚に焦点を当てている。
本稿では, VERHallu というビデオイベント関係の幻覚を評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-01-15T02:40:41Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action [28.930109403769166]
ビデオの時間的理解を高めるための2段階トレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成する。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
論文 参考訳(メタデータ) (2025-05-02T21:00:17Z) - HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation [7.027942200231825]
ビデオシーングラフ生成(VidSGG)は、ビデオフレーム間のマルチオブジェクト関係をキャプチャするために登場した。
Scene HyperGraph (HyperGLM) 上でのマルチモーダル LLM を提案する。
我々は,3人称,自我中心,ドローンビューから1.9Mフレームを備えた新しいビデオシーングラフ推論データセットを紹介した。
論文 参考訳(メタデータ) (2024-11-27T04:24:39Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。