Fugu-MT 論文翻訳(概要): FlySearch: Exploring how vision-language models explore

論文の概要: FlySearch: Exploring how vision-language models explore

arxiv url: http://arxiv.org/abs/2506.02896v1
Date: Tue, 03 Jun 2025 14:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.777042
Title: FlySearch: Exploring how vision-language models explore
Title（参考訳）: FlySearch:視覚言語モデルの探索方法を探る
Authors: Adam Pardyl, Dominik Matuszek, Mateusz Przebieracz, Marek Cygan, Bartosz Zieliński, Maciej Wołczyk,
Abstract要約: 複雑な場面でオブジェクトを検索してナビゲートするための3D,屋外,環境であるFlySearchを紹介した。我々は最先端のビジョン・ランゲージ・モデル(VLM)が、最も単純な探索作業でさえ確実に解決できないことを観察する。我々は、視覚からコンテキスト誤解、タスク計画失敗に至るまで、中心的な原因のセットを特定し、それらの一部が微調整によって対処可能であることを示す。
参考スコア（独自算出の注目度）: 0.5485097145234111
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The real world is messy and unstructured. Uncovering critical information often requires active, goal-driven exploration. It remains to be seen whether Vision-Language Models (VLMs), which recently emerged as a popular zero-shot tool in many difficult tasks, can operate effectively in such conditions. In this paper, we answer this question by introducing FlySearch, a 3D, outdoor, photorealistic environment for searching and navigating to objects in complex scenes. We define three sets of scenarios with varying difficulty and observe that state-of-the-art VLMs cannot reliably solve even the simplest exploration tasks, with the gap to human performance increasing as the tasks get harder. We identify a set of central causes, ranging from vision hallucination, through context misunderstanding, to task planning failures, and we show that some of them can be addressed by finetuning. We publicly release the benchmark, scenarios, and the underlying codebase.
Abstract（参考訳）: 現実の世界は散らかっていて、構造化されていない。重要な情報を明らかにするには、しばしば活発でゴール駆動の探索が必要である。 VLM(Vision-Language Models)が、最近、多くの困難なタスクにおいて人気のあるゼロショットツールとして登場したが、そのような状況下で効果的に動作するかどうかは不明だ。本稿では,複雑な場面でオブジェクトを探索・ナビゲートするための3D,屋外,フォトリアリスティックな環境であるFlySearchを導入することで,この問題に対処する。難易度が変化する3つのシナリオを定義し,タスクが困難になるにつれて,人間のパフォーマンスとのギャップが増大する中で,最先端のVLMが最も単純な探索タスクでさえ確実に解決できないことを観察する。我々は、視覚幻覚からコンテキスト誤解、タスク計画失敗まで、一連の中心的な原因を特定し、それらのうちいくつかは微調整によって対処可能であることを示す。ベンチマーク、シナリオ、基盤となるコードベースを公開しています。

関連論文リスト

SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks [53.611256895338585]
SIRI-Benchは、映像ベースの推論タスクを通して視覚言語モデルの空間知性を評価するために設計されたベンチマークである。 SIRI-Benchは1K近いビデオクエスト・アンサー・トリプルで構成されており、各問題はリアルな3Dシーンに埋め込まれ、ビデオによってキャプチャされる。大規模データ合成を容易にするために,自動シーン生成エンジンを開発した。
論文参考訳（メタデータ） (2025-06-17T13:40:00Z)
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。 MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳（メタデータ） (2025-03-13T04:48:43Z)
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:54:32Z)
ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。 1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。 VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文参考訳（メタデータ） (2024-10-23T13:26:59Z)
Simultaneous Localization and Affordance Prediction of Tasks from Egocentric Video [18.14234312389889]
VLM(Vision-Language Models)は、下流の視覚と自然言語アプリケーションのための基礎モデルとして成功している。本稿では、空間的局所化された自我中心型ビデオデモを利用するVLMの空間拡張について述べる。提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-07-18T18:55:56Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文参考訳（メタデータ） (2023-11-18T01:21:38Z)
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-06-17T11:44:04Z)
Batch Exploration with Examples for Scalable Robotic Reinforcement Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。 BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文参考訳（メタデータ） (2020-10-22T17:49:25Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)
An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文参考訳（メタデータ） (2020-01-07T17:40:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。