論文の概要: Natural Language-Driven Viewpoint Navigation for Volume Exploration via Semantic Block Representation
- arxiv url: http://arxiv.org/abs/2508.06823v1
- Date: Sat, 09 Aug 2025 04:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.567735
- Title: Natural Language-Driven Viewpoint Navigation for Volume Exploration via Semantic Block Representation
- Title(参考訳): 意味的ブロック表現によるボリューム探索のための自然言語駆動視点ナビゲーション
- Authors: Xuan Zhao, Jun Tao,
- Abstract要約: 本稿では、自然言語の相互作用を利用してボリュームデータ探索を強化する新しいフレームワークを提案する。
提案手法では,ボリュームブロックを符号化し,基礎構造を捕捉・識別する。
さらにCLIP Scoreメカニズムが組み込まれており、ナビゲーションをガイドするブロックに意味情報を提供する。
- 参考スコア(独自算出の注目度): 7.16051391212397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring volumetric data is crucial for interpreting scientific datasets. However, selecting optimal viewpoints for effective navigation can be challenging, particularly for users without extensive domain expertise or familiarity with 3D navigation. In this paper, we propose a novel framework that leverages natural language interaction to enhance volumetric data exploration. Our approach encodes volumetric blocks to capture and differentiate underlying structures. It further incorporates a CLIP Score mechanism, which provides semantic information to the blocks to guide navigation. The navigation is empowered by a reinforcement learning framework that leverage these semantic cues to efficiently search for and identify desired viewpoints that align with the user's intent. The selected viewpoints are evaluated using CLIP Score to ensure that they best reflect the user queries. By automating viewpoint selection, our method improves the efficiency of volumetric data navigation and enhances the interpretability of complex scientific phenomena.
- Abstract(参考訳): 科学的データセットの解釈には,ボリュームデータの探索が不可欠だ。
しかし、特に3Dナビゲーションに精通していないユーザにとって、効果的なナビゲーションのための最適な視点を選択することは困難である。
本稿では,自然言語の相互作用を活用してボリュームデータ探索を促進する新しいフレームワークを提案する。
提案手法では,ボリュームブロックを符号化し,基礎構造を捕捉・識別する。
さらにCLIP Scoreメカニズムが組み込まれており、ナビゲーションをガイドするブロックに意味情報を提供する。
ナビゲーションは、これらの意味的手がかりを活用して、ユーザの意図に沿った望ましい視点を効率的に探索し識別する強化学習フレームワークによって強化される。
選択された視点はCLIP Scoreを使用して評価され、ユーザクエリを最もよく反映する。
視点選択を自動化することにより、ボリュームデータナビゲーションの効率を向上し、複雑な科学現象の解釈可能性を高める。
関連論文リスト
- Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation [7.150985186031763]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従う環境をナビゲートする必要がある。
既存の手法は、ナビゲーション中に視覚的な観察と指示の詳細を効果的に統合するのに苦労することが多い。
OIKGは2つのキーコンポーネントを通してこれらの制限に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-03-14T02:05:16Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。