論文の概要: VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
- arxiv url: http://arxiv.org/abs/2509.19002v1
- Date: Tue, 23 Sep 2025 13:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.866657
- Title: VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
- Title(参考訳): VIR-Bench:旅行映像によるMLLMの地理空間的・時間的理解の評価
- Authors: Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara,
- Abstract要約: VIR-Benchは200本の旅行ビデオからなるベンチマークで、反復的な再構築を困難な課題とする。
実験結果から,プロプライエタリなMLLMを含む最先端のMLLMは高いスコア獲得に苦慮していることが明らかとなった。
我々は、旅行計画エージェントのプロトタイプを開発するための詳細なケーススタディを実施している。
- 参考スコア(独自算出の注目度): 14.873988791609127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs' geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent's markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、ビデオ理解能力を大幅に向上させ、実用的な応用の可能性を広げている。
しかし、現在のビデオベンチマークは主に屋内のシーンや短距離の屋外活動に焦点を当てており、長距離旅行に関わる課題はほとんど解明されていない。
拡張時空間軌道のマスターは次世代のMLLMにとって重要であり、具体的AI計画やナビゲーションといった現実世界のタスクを支えている。
このギャップを埋めるために、我々はVIR-Benchという200本の旅行ビデオからなる新しいベンチマークを紹介します。
実験結果から,プロプライエタリなMLLMを含む最先端のMLLMは高いスコア獲得に苦慮し,空間的・時間的スケールを拡大するビデオ処理の難しさを浮き彫りにした。
さらに,VIR-Benchから得られる知見を生かした旅行計画エージェントの試作を,詳細なケーススタディで実施する。
エージェントの大幅に改善された反復レコメンデーションは、我々の評価プロトコルがモデルを効果的にベンチマークするだけでなく、ユーザ向けアプリケーションの具体的なパフォーマンス向上にも寄与することを確認した。
関連論文リスト
- A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning [42.316341452766075]
本稿では,RFT(Reinforcement Fine-temporalning)による映像知覚の向上を目的とする。
我々は,チャット機能を犠牲にすることなく,最先端のリアルタイムタスクを実現する強力なビデオMLLMであるVideoChat-R1を開発した。
ビデオMLLMのタスク強化におけるRTTの可能性について検討した。
論文 参考訳(メタデータ) (2025-04-09T15:09:27Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。