論文の概要: ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments
- arxiv url: http://arxiv.org/abs/2603.06648v1
- Date: Fri, 27 Feb 2026 19:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.478273
- Title: ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments
- Title(参考訳): ObjChangeVR:VR環境における連続的エゴシックな視点からのオブジェクト状態変化の推論
- Authors: Shiyi Ding, Shaoen Wu, Ying Chen,
- Abstract要約: 仮想現実(VR)におけるオブジェクト状態変化に対する質問応答タスクのベンチマークについて紹介する。
また、視点認識と時間ベース検索を組み合わせたフレームワークであるChangeVRと、クロスビュー推論を提案する。
- 参考スコア(独自算出の注目度): 4.46498673219845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) offer a promising approach for natural language-based scene change queries in virtual reality (VR). Prior work on applying MLLMs for object state understanding has focused on egocentric videos that capture the camera wearer's interactions with objects. However, object state changes may occur in the background without direct user interaction, lacking explicit motion cues and making them difficult to detect. Moreover, no benchmark exists for evaluating this challenging scenario. To address these challenges, we introduce ObjChangeVR-Dataset, specifically for benchmarking the question-answering task of object state change. We also propose ObjChangeVR, a framework that combines viewpoint-aware and temporal-based retrieval to identify relevant frames, along with cross-view reasoning that reconciles inconsistent evidence from multiple viewpoints. Extensive experiments demonstrate that ObjChangeVR significantly outperforms baseline approaches across multiple MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、仮想現実(VR)における自然言語ベースのシーン変化クエリーに有望なアプローチを提供する。
MLLMをオブジェクト状態理解に適用する以前の研究は、カメラ装着者のオブジェクトとのインタラクションをキャプチャするエゴセントリックなビデオに焦点を当てていた。
しかし、オブジェクトの状態変化は、直接のユーザインタラクションなしにバックグラウンドで発生し、明示的なモーションキューが欠如し、検出が困難になる可能性がある。
さらに、この挑戦的なシナリオを評価するためのベンチマークは存在しない。
これらの課題に対処するために、ObjChangeVR-Datasetを紹介します。
また、視点認識と時間に基づく検索を組み合わせて関連するフレームを識別するフレームワークであるObjChangeVRと、複数の視点から矛盾する証拠を照合するクロスビュー推論を提案する。
大規模な実験により、ObjChangeVRは複数のMLLMのベースラインアプローチよりも大幅に優れていた。
関連論文リスト
- Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models [29.330083952817997]
我々はVMRMOTという新しいビジョン・モーション・リファレンス・アライメントのRMOTフレームワークを提案する。
物体力学から抽出された運動モーダリティを統合し、視覚モーダリティと言語参照のアライメントを強化する。
我々の知る限りでは、VMRMOT は RMOT タスクに MLLM を採用する最初のアプローチである。
論文 参考訳(メタデータ) (2025-11-21T08:53:31Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。