論文の概要: MARS: Technical Report for the CASTLE Challenge at EgoVis 2026
- arxiv url: http://arxiv.org/abs/2605.18176v1
- Date: Mon, 18 May 2026 10:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.391467
- Title: MARS: Technical Report for the CASTLE Challenge at EgoVis 2026
- Title(参考訳): MARS:EgoVis 2026におけるCASTLE Challengeのテクニカルレポート
- Authors: Haoyu Zhang, Qiaohui Chu, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie,
- Abstract要約: 本稿では,EgoVis 2026におけるCASTLE Challengeについて紹介する。
参加者はCASTLE 2024データセットに対して185のクローズドフォームの質問に答えなければならない。
MARSは、タスクをマルチモーダルソース上のエージェントエビデンス選択問題として扱う。
- 参考スコア(独自算出の注目度): 84.71667602630663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents MARS, short for Multimodal Agentic Reasoning with Source selection, our system for the CASTLE Challenge at EgoVis 2026. Participants must answer 185 closed-form questions over the CASTLE 2024 dataset. In contrast to prior single-video egocentric benchmarks, CASTLE requires reasoning over four days of activity, 15 synchronized perspectives, official transcripts, and multiple auxiliary modalities, including personal photos, auxiliary videos, gaze, thermal imagery, and heartrate measurements. MARS therefore treats the task as an agentic evidence-selection problem over multimodal sources rather than a purely text-only pipeline. MARS first follows the official CASTLE directory organization to build evidence memories from two primary sources, videos and transcripts, and four auxiliary sources, gaze, heartrate, photos, and thermal imagery. Long videos are converted into captions and DeepSeek-based summaries only because CASTLE videos are too long to fit directly into the model context for every question; this step compresses temporal evidence while keeping photos and other auxiliary media available as source-specific evidence. At inference time, a GPT-5.4 decision agent repeatedly chooses whether to continue reasoning, request a specific missing modality, produce an answer, or fall back to a random option when the evidence remains insufficient. The resulting system achieved second place on the final CASTLE Challenge leaderboard. Our codes are available at https://github.com/Hyu-Zhang/MARS.
- Abstract(参考訳): 本報告では,EgoVis 2026におけるCASTLEチャレンジシステムであるMultimodal Agentic Reasoning with Source selectionについて述べる。
参加者はCASTLE 2024データセットに対して185のクローズドフォームの質問に答えなければならない。
以前のシングルビデオのエゴセントリックなベンチマークとは対照的に、CASTLEは4日間のアクティビティ、15の同期された視点、公式のテキスト、および複数の補助的なモダリティ(個人写真、補助ビデオ、視線、熱画像、心拍数測定など)を推論する必要がある。
したがってMARSは、タスクを純粋にテキストのみのパイプラインではなく、マルチモーダルソース上のエージェントエビデンス選択問題として扱う。
MARSはまず公式のCASTLEディレクトリー組織に従い、2つの主要なソース、ビデオとトランスクリプト、および4つの補助ソース、視線、心拍数、写真、熱画像からエビデンスメモリを構築する。
長いビデオはキャプションやDeepSeekベースの要約に変換されるが、それは、CASTLEビデオが各質問のモデルコンテキストに直接適合するには長すぎるためである。
推論時に、GPT-5.4決定エージェントは、証拠が不十分な場合、推論を継続し、特定の欠落したモダリティを要求し、回答を生成し、ランダムな選択肢にフォールバックするかを繰り返し選択する。
このシステムは最後のCASTLEチャレンジのリーダーボードで2位を獲得した。
私たちのコードはhttps://github.com/Hyu-Zhang/MARS.comで公開されています。
関連論文リスト
- Adverse-to-the-eXtreme Panoptic Segmentation: URVIS 2026 Study and Benchmark [61.92065556649544]
最初の挑戦は17人の登録参加者と47人の応募者を集め、4チームが最終フェーズに到達した。
この課題は、悪天候下での汎視的セグメンテーションのためのマルチセンサーベンチマークであるMUSESデータセットに基づいている。
論文 参考訳(メタデータ) (2026-04-18T13:02:51Z) - HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering [13.370338205427911]
HERBenchはビデオQAのベンチマークで、時間をかけてマルチエビデンス統合を評価する。
HERBenchは、12の合成タスクで構成された26Kの5方向の多重選択質問で構成されている。
我々は、HERBenchが以前のデータセットよりもかなり高い需要を課していることを示す。
論文 参考訳(メタデータ) (2025-12-16T19:34:47Z) - Vidi: Large Multimodal Models for Video Understanding and Editing [38.391725386019324]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - T*: Re-thinking Temporal Search for Long-Form Video Understanding [66.72243342954823]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024 [1.3923460621808879]
大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化できることが示されている。
マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。
提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを達成した。
論文 参考訳(メタデータ) (2024-11-08T18:25:06Z) - AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results [76.64868221556145]
本稿では,AIM(Advanceds in Image Manipulation)ワークショップの一環として,ビデオ・スーパーリゾリューション(SR)品質アセスメント(QA)チャレンジについて紹介する。
この課題の課題は、現代の画像とビデオ-SRアルゴリズムを用いて、2xと4xのアップスケールされたビデオのための客観的QA手法を開発することである。
SR QAの目標は、従来のQA手法の適用範囲が限られているという難題が証明された、最先端のSR QAを前進させることであった。
論文 参考訳(メタデータ) (2024-10-05T16:42:23Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。