論文の概要: A modular vision language navigation and manipulation framework for long
horizon compositional tasks in indoor environment
- arxiv url: http://arxiv.org/abs/2101.07891v1
- Date: Tue, 19 Jan 2021 23:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:10:15.274684
- Title: A modular vision language navigation and manipulation framework for long
horizon compositional tasks in indoor environment
- Title(参考訳): 室内環境における長期水平構成作業のためのモジュール型視覚言語ナビゲーション・操作フレームワーク
- Authors: Homagni Saha, Fateme Fotouhif, Qisai Liu, Soumik Sarkar
- Abstract要約: MoViLanは視覚的に基礎づけられた自然言語の指示を実行するための新しいフレームワークです。
ナビゲーションとオブジェクトインタラクションの結合問題に対処するためのモジュール型アプローチを提案する。
具体的には,室内環境における新しいジオメトリ認識マッピング手法を提案する。
- 参考スコア(独自算出の注目度): 9.159670926457975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a new framework - MoViLan (Modular Vision and
Language) for execution of visually grounded natural language instructions for
day to day indoor household tasks. While several data-driven, end-to-end
learning frameworks have been proposed for targeted navigation tasks based on
the vision and language modalities, performance on recent benchmark data sets
revealed the gap in developing comprehensive techniques for long horizon,
compositional tasks (involving manipulation and navigation) with diverse object
categories, realistic instructions and visual scenarios with non-reversible
state changes. We propose a modular approach to deal with the combined
navigation and object interaction problem without the need for strictly aligned
vision and language training data (e.g., in the form of expert demonstrated
trajectories). Such an approach is a significant departure from the traditional
end-to-end techniques in this space and allows for a more tractable training
process with separate vision and language data sets. Specifically, we propose a
novel geometry-aware mapping technique for cluttered indoor environments, and a
language understanding model generalized for household instruction following.
We demonstrate a significant increase in success rates for long-horizon,
compositional tasks over the baseline on the recently released benchmark data
set-ALFRED.
- Abstract(参考訳): 本稿では,視覚的な自然言語命令を日常の家庭内タスクに対して実行するための,MoViLan (Modular Vision and Language) という新しいフレームワークを提案する。
データ駆動でエンドツーエンドの学習フレームワークが視覚と言語のモダリティに基づいたナビゲーションタスクを対象として提案されているが、最近のベンチマークデータセットのパフォーマンスは、長い地平線のための包括的な技術開発におけるギャップを明らかにした。
本稿では,高度に協調した視覚・言語訓練データ(例えば,専門家による実験軌道の形で)を必要とせずに,ナビゲーションとオブジェクトの相互作用の複合問題に対処するモジュール方式を提案する。
このようなアプローチは、この分野における従来のエンドツーエンド技術とは大きく離れており、視覚と言語データセットを分離したより魅力的なトレーニングプロセスを可能にします。
具体的には、乱雑な屋内環境のための新しい幾何学的対応マッピング手法と、家事指導に一般化された言語理解モデルを提案する。
我々は,最近リリースされたベンチマークデータセットセット-ALFREDのベースライン上での長期合成タスクの成功率を著しく向上させることを示す。
関連論文リスト
- Lyrics: Boosting Fine-grained Language-Vision Alignment and
Comprehension via Semantic-aware Visual Objects [36.49703374567597]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - LangNav: Language as a Perceptual Representation for Navigation [66.65847547795593]
視覚・言語ナビゲーションにおける知覚表現としての言語の利用について検討する。
我々のアプローチでは、市販の視覚システムを使用して、エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。