論文の概要: EventRR: Event Referential Reasoning for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2508.07171v1
- Date: Sun, 10 Aug 2025 04:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.736109
- Title: EventRR: Event Referential Reasoning for Referring Video Object Segmentation
- Title(参考訳): EventRR: ビデオオブジェクトのセグメンテーションを参照するためのイベント参照推論
- Authors: Huihui Xu, Jiashi Lin, Haoyu Chen, Junjun He, Lei Zhu,
- Abstract要約: Referring Video Object (RVOS) は、式によって参照されるビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在のRVOSメソッドは、参照式を非構造化シーケンスと見なしている。
本稿では,Event Referential Reasoning(EventRR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.66214710897138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment out the object in a video referred by an expression. Current RVOS methods view referring expressions as unstructured sequences, neglecting their crucial semantic structure essential for referent reasoning. Besides, in contrast to image-referring expressions whose semantics focus only on object attributes and object-object relations, video-referring expressions also encompass event attributes and event-event temporal relations. This complexity challenges traditional structured reasoning image approaches. In this paper, we propose the Event Referential Reasoning (EventRR) framework. EventRR decouples RVOS into object summarization part and referent reasoning part. The summarization phase begins by summarizing each frame into a set of bottleneck tokens, which are then efficiently aggregated in the video-level summarization step to exchange the global cross-modal temporal context. For reasoning part, EventRR extracts semantic eventful structure of a video-referring expression into highly expressive Referential Event Graph (REG), which is a single-rooted directed acyclic graph. Guided by topological traversal of REG, we propose Temporal Concept-Role Reasoning (TCRR) to accumulate the referring score of each temporal query from REG leaf nodes to root node. Each reasoning step can be interpreted as a question-answer pair derived from the concept-role relations in REG. Extensive experiments across four widely recognized benchmark datasets, show that EventRR quantitatively and qualitatively outperforms state-of-the-art RVOS methods. Code is available at https://github.com/bio-mlhui/EventRR
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、式によって参照されるビデオ内のオブジェクトを分割することを目的としている。
現在のRVOS法では、参照表現を非構造的シーケンスとみなし、参照推論に不可欠な重要な意味構造を無視している。
さらに、オブジェクト属性とオブジェクトオブジェクトの関係のみに焦点を当てた画像参照式とは対照的に、ビデオ参照式はイベント属性やイベントイベントの時間的関係も含む。
この複雑さは、従来の構造化推論画像アプローチに挑戦する。
本稿では,Event Referential Reasoning(EventRR)フレームワークを提案する。
EventRRはRVOSをオブジェクト要約部と参照推論部とに分離する。
要約フェーズは、各フレームを一連のボトルネックトークンにまとめることから始まり、ビデオレベルの要約ステップで効率的に集約され、グローバルなクロスモーダル時間コンテキストを交換する。
EventRRは、ビデオ参照式のセマンティックなイベント構造を高度に表現された参照イベントグラフ(REG)に抽出する。
本稿では,REGのトポロジカルトラバーサルで導かれる時間的概念-ロール推論(TCRR)を提案し,各時間的問合せのスコアをREGの葉ノードからルートノードに蓄積する。
各推論ステップは、REGのコンセプトとロールの関係から導かれる質問と回答のペアとして解釈できる。
広く認識されている4つのベンチマークデータセットに対する大規模な実験は、EventRRが最先端のRVOSメソッドよりも定量的に質的に優れていることを示している。
コードはhttps://github.com/bio-mlhui/EventRRで公開されている。
関連論文リスト
- Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Temporal Collection and Distribution for Referring Video Object
Segmentation [14.886278504056063]
ビデオオブジェクトのセグメンテーションの参照は、自然言語の表現に従って、ビデオシーケンス全体を通して参照をセグメンテーションすることを目的としている。
本稿では,グローバル参照トークンとオブジェクトクエリのシーケンスを同時に維持することを提案する。
提案手法は,すべてのベンチマークにおいて,最先端の手法よりも連続的に,著しく優れることを示す。
論文 参考訳(メタデータ) (2023-09-07T04:22:02Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。