Fugu-MT 論文翻訳(概要): MOCA: A Modular Object-Centric Approach for Interactive Instruction Following

論文の概要: MOCA: A Modular Object-Centric Approach for Interactive Instruction Following

arxiv url: http://arxiv.org/abs/2012.03208v1
Date: Sun, 6 Dec 2020 07:59:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 14:01:29.310911
Title: MOCA: A Modular Object-Centric Approach for Interactive Instruction Following
Title（参考訳）: MOCA: 対話型インストラクション追従のためのモジュール型オブジェクト中心アプローチ
Authors: Kunal Pratap Singh, Suvaansh Bhambri, Byeonghwi Kim, Roozbeh Mottaghi, Jonghyun Choi
Abstract要約: 本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
参考スコア（独自算出の注目度）: 19.57344182656879
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Performing simple household tasks based on language directives is very natural to humans, yet it remains an open challenge for an AI agent. Recently, an `interactive instruction following' task has been proposed to foster research in reasoning over long instruction sequences that requires object interactions in a simulated environment. It involves solving open problems in vision, language and navigation literature at each step. To address this multifaceted problem, we propose a modular architecture that decouples the task into visual perception and action policy, and name it as MOCA, a Modular Object-Centric Approach. We evaluate our method on the ALFRED benchmark and empirically validate that it outperforms prior arts by significant margins in all metrics with good generalization performance (high success rate in unseen environments). Our code is available at https://github.com/gistvision/moca.
Abstract（参考訳）: 言語指示に基づく単純な家庭のタスクを実行することは、人間にとって非常に自然なことですが、AIエージェントにとってはオープンな課題です。近年,シミュレーション環境においてオブジェクトインタラクションを必要とする長い命令列を推論する研究を進めるために,'interactive instruction following'タスクが提案されている。視覚、言語、ナビゲーションの文学におけるオープンな問題を各ステップで解決する。この多面的問題に対処するために,タスクを視覚的知覚と行動ポリシーに分離するモジュールアーキテクチャを提案し,その名前をMOCA,Modular Object-Centric Approachと呼ぶ。提案手法をALFREDベンチマークで評価し, 高い一般化性能(未確認環境における高い成功率)を有する全ての指標において, 先行技術よりも有意差があることを実証的に検証した。私たちのコードはhttps://github.com/gistvision/mocaで利用可能です。

関連論文リスト

ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。 1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。 VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文参考訳（メタデータ） (2024-10-23T13:26:59Z)
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文参考訳（メタデータ） (2024-07-20T05:39:28Z)
Enabling robots to follow abstract instructions and complete complex dynamic tasks [4.514939211420443]
本稿では,大規模言語モデル,キュレートされた知識ベース,統合力と視覚フィードバック(IFVF)を組み合わせた新しいフレームワークを提案する。提案手法は,抽象的な命令を解釈し,長期的タスクを実行し,不確実性に対処する。私たちの発見は、付随するビデオで説明され、オープンソースのGitHubリポジトリでサポートされています。
論文参考訳（メタデータ） (2024-06-17T05:55:35Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
NaturalVLM: Leveraging Fine-grained Natural Language for Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。 15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-13T09:12:16Z)
OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文参考訳（メタデータ） (2024-02-16T13:21:33Z)
Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。 CSコーパスの構築の応用について検討する。タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文参考訳（メタデータ） (2024-02-02T15:38:47Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文参考訳（メタデータ） (2021-01-09T21:49:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。