論文の概要: Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments
- arxiv url: http://arxiv.org/abs/2506.02845v1
- Date: Tue, 03 Jun 2025 13:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.690946
- Title: Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments
- Title(参考訳): 微小重力環境における人間の行動とシーンの理解
- Authors: Di Wen, Lei Qi, Kunyu Peng, Kailun Yang, Fei Teng, Ao Luo, Jia Fu, Yufan Chen, Ruiping Liu, Yitian Shi, M. Saquib Sarfraz, Rainer Stiefelhagen,
- Abstract要約: MicroG-4Mは微小重力下での人間の活動のセマンティック理解のための最初のベンチマークである。
データセットには、50のアクションを含む4,759のクリップ、1,238のコンテキスト豊富なキャプション、そして7000以上の質問対の宇宙飛行士の活動とシーン理解が含まれている。
MicroG-4Mは、細粒度多ラベルアクション認識、時間的ビデオキャプション、視覚的質問応答の3つのコアタスクをサポートする。
- 参考スコア(独自算出の注目度): 40.707104501676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite substantial progress in video understanding, most existing datasets are limited to Earth's gravitational conditions. However, microgravity alters human motion, interactions, and visual semantics, revealing a critical gap for real-world vision systems. This presents a challenge for domain-robust video understanding in safety-critical space applications. To address this, we introduce MicroG-4M, the first benchmark for spatio-temporal and semantic understanding of human activities in microgravity. Constructed from real-world space missions and cinematic simulations, the dataset includes 4,759 clips covering 50 actions, 1,238 context-rich captions, and over 7,000 question-answer pairs on astronaut activities and scene understanding. MicroG-4M supports three core tasks: fine-grained multi-label action recognition, temporal video captioning, and visual question answering, enabling a comprehensive evaluation of both spatial localization and semantic reasoning in microgravity contexts. We establish baselines using state-of-the-art models. All data, annotations, and code are available at https://github.com/LEI-QI-233/HAR-in-Space.
- Abstract(参考訳): ビデオ理解の進歩にもかかわらず、既存のデータセットのほとんどは地球の重力条件に限られている。
しかし、微小重力は人間の動き、相互作用、視覚的意味論を変え、現実世界の視覚システムにとって重要なギャップを明らかにする。
これは、安全クリティカルな宇宙アプリケーションにおけるドメインローバストなビデオ理解の課題である。
そこで我々は,微小重力下での人間の活動の時空間的・意味的理解のための最初のベンチマークであるMicroG-4Mを紹介する。
実際の宇宙ミッションとシネマティックシミュレーションから構築されたこのデータセットには、50のアクションを含む4,759のクリップ、1,238のコンテキストに富んだキャプション、そして7000以上の質問対の宇宙飛行士の活動とシーン理解が含まれている。
MicroG-4Mは、微粒なマルチラベルアクション認識、時間的ビデオキャプション、視覚的質問応答の3つのコアタスクをサポートし、微小重力環境における空間的局所化と意味的推論の両方を包括的に評価できる。
我々は最先端のモデルを用いてベースラインを確立する。
すべてのデータ、アノテーション、コードはhttps://github.com/LEI-QI-233/HAR-in-Spaceで入手できる。
関連論文リスト
- HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Free-form language-based robotic reasoning and grasping [9.866754994504324]
VLM(Vision-Language Models)は、テキストと画像の両方で顕著な推論能力を示している。
本稿では,事前学習されたVLMの世界の知識を活用して,人間の指示や物体空間配置を推論する新しい手法FreeGraspを提案する。
提案手法は,すべてのオブジェクトをキーポイントとして検出し,これらのキーポイントを用いて画像上のマークをアノテートし,GPT-4oのゼロショット空間推論を促進する。
論文 参考訳(メタデータ) (2025-03-17T11:41:16Z) - RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Space-LLaVA: a Vision-Language Model Adapted to Extraterrestrial Applications [14.89043819048682]
宇宙ロボティクスのためのFMを構築する動機となる宇宙ロボティクスには,3つの課題がある。
宇宙基盤モデルへの第一歩として、3つの地球外データベースを微細なアノテーションで拡張する。
我々は、地球外環境のセマンティックな特徴に適応するために、ビジョン・ランゲージ・モデル(Vision-Language Model)を微調整する。
論文 参考訳(メタデータ) (2024-08-12T05:07:24Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Towards Robust Monocular Visual Odometry for Flying Robots on Planetary
Missions [49.79068659889639]
火星に着陸したばかりのIngenuityは、トラバーサビリティの影響を受けない新時代の探検の始まりとなるでしょう。
高速な光フロートラッキングを用いた高能率単分子オードメトリーアルゴリズムを提案する。
また、相対翻訳情報行列の主成分分析に基づいて、スケールドリフトの現在のリスクを推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-12T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。