論文の概要: See, Imagine, Plan: Discovering and Hallucinating Tasks from a Single Image
- arxiv url: http://arxiv.org/abs/2403.13438v2
- Date: Thu, 21 Mar 2024 05:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 12:40:50.345208
- Title: See, Imagine, Plan: Discovering and Hallucinating Tasks from a Single Image
- Title(参考訳): 1枚の画像からタスクを発見・幻覚化させる計画(動画)
- Authors: Chenyang Ma, Kai Lu, Ta-Ying Cheng, Niki Trigoni, Andrew Markham,
- Abstract要約: ゼロショットタスク幻覚(zero-shot Task Hallucination) – 任意のシーンの1つのRGBイメージを考えると、私たちのモデルは潜在的なタスクを特定し、ビデオとして実現された鮮やかな物語の中でそれらの実行を想像することができます。
動的相互作用のためのVLMと物体軌道のための3次元モーションプランニングを組み込んだ,シーンの分解,理解,再構築を段階的に向上するモジュールパイプラインを開発した。
我々のモデルは、機械と人間の両方が理解できる現実的で魅力的な視覚結果を示すタスクビデオによって、多様なタスクを発見できる。
- 参考スコア(独自算出の注目度): 42.85605789984155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can not only recognize and understand the world in its current state but also envision future scenarios that extend beyond immediate perception. To resemble this profound human capacity, we introduce zero-shot task hallucination -- given a single RGB image of any scene comprising unknown environments and objects, our model can identify potential tasks and imagine their execution in a vivid narrative, realized as a video. We develop a modular pipeline that progressively enhances scene decomposition, comprehension, and reconstruction, incorporating VLM for dynamic interaction and 3D motion planning for object trajectories. Our model can discover diverse tasks, with the generated task videos demonstrating realistic and compelling visual outcomes that are understandable by both machines and humans. Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/
- Abstract(参考訳): 人間は、現在の世界で世界を認識し、理解するだけでなく、すぐに知覚できる以上の将来のシナリオを思い描くことができる。
この深い人間の能力に似て、ゼロショットのタスク幻覚を導入します -- 未知の環境やオブジェクトを含むシーンの1つのRGBイメージを考えると、私たちのモデルは潜在的なタスクを特定し、ビデオとして実現された鮮やかな物語の中でそれらの実行を想像できます。
動的相互作用のためのVLMと物体軌道のための3次元モーションプランニングを組み込んだ,シーンの分解,理解,再構築を段階的に向上するモジュールパイプラインを開発した。
我々のモデルは、機械と人間の両方が理解できる現実的で魅力的な視覚結果を示すタスクビデオによって、多様なタスクを発見できる。
Project Page: https://dannymcy.github.io/zeroshot_task_hallucination/
関連論文リスト
- Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning [19.399925987942204]
視覚言語モデル (VLM) は、幅広い下流タスクにおいて印象的なパフォーマンスを示している。
評価の結果, 現状のVLMは複合空間推論問題に対して, しばしば不確実かつ不正確な応答を生じさせることが判明した。
そこで本研究では,基本空間能力のみに基づいてモデルをトレーニングすることにより,VLM内の2次元空間推論を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction [32.46674157164291]
ZeroVLMは、入力画像の異なるビューを取得するための3次元再構成モデルであるZero-1-to-3を使用している。
4つの視覚的空間推論データセットによる実験結果から, 最大19.48%の精度向上が得られた。
論文 参考訳(メタデータ) (2024-07-19T09:03:30Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Exploring and Improving the Spatial Reasoning Abilities of Large
Language Models [0.0]
LLM(Large Language Models)は、シーケンスモデリングのツールである。
本稿では,ChatGPT-3.5,ChatGPT-4,Llama 2 7Bの3次元ロボット軌道データと対向する性能について検討する。
3Dトラジェクトリデータに33%の改善をもたらす新しいプレフィックスベースのプロンプト機構を導入する。
論文 参考訳(メタデータ) (2023-12-02T07:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。