Fugu-MT 論文翻訳(概要): A modular vision language navigation and manipulation framework for long horizon compositional tasks in indoor environment

論文の概要: A modular vision language navigation and manipulation framework for long horizon compositional tasks in indoor environment

arxiv url: http://arxiv.org/abs/2101.07891v1
Date: Tue, 19 Jan 2021 23:05:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 11:10:15.274684
Title: A modular vision language navigation and manipulation framework for long horizon compositional tasks in indoor environment
Title（参考訳）: 室内環境における長期水平構成作業のためのモジュール型視覚言語ナビゲーション・操作フレームワーク
Authors: Homagni Saha, Fateme Fotouhif, Qisai Liu, Soumik Sarkar
Abstract要約: MoViLanは視覚的に基礎づけられた自然言語の指示を実行するための新しいフレームワークです。ナビゲーションとオブジェクトインタラクションの結合問題に対処するためのモジュール型アプローチを提案する。具体的には,室内環境における新しいジオメトリ認識マッピング手法を提案する。
参考スコア（独自算出の注目度）: 9.159670926457975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we propose a new framework - MoViLan (Modular Vision and Language) for execution of visually grounded natural language instructions for day to day indoor household tasks. While several data-driven, end-to-end learning frameworks have been proposed for targeted navigation tasks based on the vision and language modalities, performance on recent benchmark data sets revealed the gap in developing comprehensive techniques for long horizon, compositional tasks (involving manipulation and navigation) with diverse object categories, realistic instructions and visual scenarios with non-reversible state changes. We propose a modular approach to deal with the combined navigation and object interaction problem without the need for strictly aligned vision and language training data (e.g., in the form of expert demonstrated trajectories). Such an approach is a significant departure from the traditional end-to-end techniques in this space and allows for a more tractable training process with separate vision and language data sets. Specifically, we propose a novel geometry-aware mapping technique for cluttered indoor environments, and a language understanding model generalized for household instruction following. We demonstrate a significant increase in success rates for long-horizon, compositional tasks over the baseline on the recently released benchmark data set-ALFRED.
Abstract（参考訳）: 本稿では,視覚的な自然言語命令を日常の家庭内タスクに対して実行するための,MoViLan (Modular Vision and Language) という新しいフレームワークを提案する。データ駆動でエンドツーエンドの学習フレームワークが視覚と言語のモダリティに基づいたナビゲーションタスクを対象として提案されているが、最近のベンチマークデータセットのパフォーマンスは、長い地平線のための包括的な技術開発におけるギャップを明らかにした。本稿では,高度に協調した視覚・言語訓練データ(例えば,専門家による実験軌道の形で)を必要とせずに,ナビゲーションとオブジェクトの相互作用の複合問題に対処するモジュール方式を提案する。このようなアプローチは、この分野における従来のエンドツーエンド技術とは大きく離れており、視覚と言語データセットを分離したより魅力的なトレーニングプロセスを可能にします。具体的には、乱雑な屋内環境のための新しい幾何学的対応マッピング手法と、家事指導に一般化された言語理解モデルを提案する。我々は,最近リリースされたベンチマークデータセットセット-ALFREDのベースライン上での長期合成タスクの成功率を著しく向上させることを示す。

関連論文リスト

A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。 CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-11T20:51:58Z)
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface [25.898592418636603]
textbfOpen-ended言語インターフェースを通じて、textbfFineの粒度の視覚的知覚タスクをTextbfUnifyするフレームワークである。オブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。私たちのフレームワークは、きめ細かい認識と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化します。
論文参考訳（メタデータ） (2025-03-03T09:27:24Z)
Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models [19.054780489639793]
本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
論文参考訳（メタデータ） (2024-12-11T06:21:33Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文参考訳（メタデータ） (2023-12-08T09:02:45Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文参考訳（メタデータ） (2023-05-26T13:38:33Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-24T14:12:32Z)
Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文参考訳（メタデータ） (2021-01-09T21:49:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。