論文の概要: OmniEgo-R$^2$: A Routed Reasoning Framework for the 1st Cross-Domain EgoCross Challenge at CVPR 2026
- arxiv url: http://arxiv.org/abs/2605.24481v2
- Date: Wed, 27 May 2026 06:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.964262
- Title: OmniEgo-R$^2$: A Routed Reasoning Framework for the 1st Cross-Domain EgoCross Challenge at CVPR 2026
- Title(参考訳): OmniEgo-R$^2$: A Routed Reasoning Framework for the 1st Cross-Domain EgoCross Challenge at CVPR 2026
- Authors: Zixu Li, Zhiwei Chen, Zhiheng Fu, Wenbo Wang, Yupeng Hu, Weili Guan, Liqiang Nie,
- Abstract要約: 我々は、EgoCrossを堅牢なクロスドメインエンボディビデオ推論問題として定式化する。
時間的境界あいまいさ、ドメイン間セマンティックミスマッチ、およびクローズドオプションによる決定不安定性の3つの主要な課題を特定します。
我々の提出物はソース制限トラックで66.35%、オープンソーストラックで66.77%、両リーダーボードで2位である。
- 参考スコア(独自算出の注目度): 73.31700707400647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 1st Cross-Domain EgoCross Challenge at EgoVis, CVPR 2026 evaluates whether multimodal large language models can reason over egocentric videos across surgery, industry, extreme sports, and animal perspective. We achieved second place in both the Source-Limited and Open-Source tracks. In this report, we formulate EgoCross as a robust cross-domain embodied video reasoning problem rather than a simple multiple-choice visual question answering task. We identify three key challenges: (C1) temporal boundary ambiguity, where critical state transitions are sparsely sampled and often occur between frames; (C2) cross-domain semantic granularity mismatch, where the same capability requires different domain-specific visual grammar; and (C3) decision instability under close options, where long multimodal reasoning can select unsupported distractors or produce malformed outputs. To address them, we propose OmniEgo-R$^2$ (Omnidomain Egocentric Routed Reasoning), a unified routed reasoning pipeline consisting of temporal-evidence normalization, domain-agnostic capability routing, structured perception--dynamics--decision reasoning, boundary-aware option verification, and defensive answer calibration. OmniEgo-R$^2$ uses the Qwen3-VL-4B-SFT checkpoints on each EgoCross domain as the visual-language backbone, and wraps them with lightweight test-time reasoning and parsing programs. Our final submissions obtain 66.35% overall accuracy in the Source-Limited track and 66.77% in the Open-Source track, ranking second in both leaderboards. The codes are available on https://github.com/Lee-zixu/OmniEgo-R2
- Abstract(参考訳): EgoVisの第1回クロスドメインエゴクロスチャレンジ(CVPR 2026)では、多モードの大規模言語モデルが、手術、産業、極端なスポーツ、動物の観点からのエゴセントリックな動画を推論できるかどうかを評価する。
私たちはSource-LimitedとOpen-Sourceのトラックで2位を獲得しました。
本稿では,EgoCrossを,単純な複数選択視覚質問応答タスクではなく,堅牢なクロスドメイン具体化ビデオ推論問題として定式化する。
C1) 時間的境界の曖昧さ、(C2) 臨界状態遷移が断片的にサンプリングされ、フレーム間で頻繁に発生する場合、(C2) ドメイン間セマンティックな粒度のミスマッチ、(C3) ドメイン固有の異なる視覚文法を必要とする場合、(C3) 決定の不安定性、(C3) 長いマルチモーダル推論が不規則な出力を選択できる場合、の3つの主要な課題を特定する。
OmniEgo-R$^2$ (Omni Domain Egocentric Routed Reasoning) は、時間的証拠正規化、ドメインに依存しない機能ルーティング、構造化された知覚-力学-決定的推論、境界認識オプション検証、防御応答キャリブレーションからなる統一経路推論パイプラインである。
OmniEgo-R$^2$は、各EgoCrossドメインのQwen3-VL-4B-SFTチェックポイントを視覚言語バックボーンとして使用し、ライトウェイトなテスト時間推論と解析プログラムでラップする。
最終提出はソースリミテッドトラックで66.35%、オープンソーストラックで66.77%、両リーダーボードで2位である。
コードはhttps://github.com/Lee-zixu/OmniEgo-R2で公開されている。
関連論文リスト
- PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation [71.53011159355401]
推論セグメンテーションは地上のシーンからリモートセンシング画像へと拡張されているが、UAVデータは異なる課題を提起している。
UAV推論タスクを定義し,そのセマンティック要件を3次元(空間,属性,シーンレベルの推論)に整理する。
DRSegはUAV推論セグメンテーションのための大規模ベンチマークであり、Chain-of-Thought QA監督と組み合わせた10kの高解像度空中画像を含む。
論文 参考訳(メタデータ) (2026-04-17T03:48:56Z) - DriveXQA: Cross-modal Visual Question Answering for Adverse Driving Scene Understanding [40.93547456625219]
本稿では,自動運転VQAのためのマルチモーダルデータセットであるDriveXQAを提案する。
4つの視覚的モード、5つのセンサー障害、5つの気象条件に加えて、グローバルシーンレベル、アロセントリックレベル、エゴ車中心レベルという3つのタイプに分類される10,505ドルのQAペアを含む。
本稿では,DCAプロジェクタを備えたトークン効率の高いMVX-LLMを設計し,情報冗長性を緩和する。
論文 参考訳(メタデータ) (2026-03-11T23:49:11Z) - EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。
EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-27T17:38:17Z) - ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering [59.94048858464922]
EgoCrossは、EgocentricQAにおけるMLLMのクロスドメイン一般化を評価するためのベンチマークである。
EgoCrossは、手術、産業、極端なスポーツ、動物の観点からの4つの分野をカバーしている。
798のビデオクリップにまたがる約1000のQAペアで構成され、予測、認識、ローカライゼーション、カウントという4つの重要なQAタスクにまたがる。
論文 参考訳(メタデータ) (2025-08-14T15:11:20Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception [30.113617846516398]
DualCrossは、より堅牢なBEV知覚モデルの学習を容易にする、クロスモダリティのクロスドメイン適応フレームワークである。
この研究は、クロスドメイン・クロスセンサーの認識と野生における単分子3Dタスクへの適応を初めてオープンに解析する結果となった。
論文 参考訳(メタデータ) (2023-05-05T17:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。