論文の概要: MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following
- arxiv url: http://arxiv.org/abs/2012.03208v1
- Date: Sun, 6 Dec 2020 07:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:01:29.310911
- Title: MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following
- Title(参考訳): MOCA: 対話型インストラクション追従のためのモジュール型オブジェクト中心アプローチ
- Authors: Kunal Pratap Singh, Suvaansh Bhambri, Byeonghwi Kim, Roozbeh Mottaghi,
Jonghyun Choi
- Abstract要約: 本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
- 参考スコア(独自算出の注目度): 19.57344182656879
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Performing simple household tasks based on language directives is very
natural to humans, yet it remains an open challenge for an AI agent. Recently,
an `interactive instruction following' task has been proposed to foster
research in reasoning over long instruction sequences that requires object
interactions in a simulated environment. It involves solving open problems in
vision, language and navigation literature at each step. To address this
multifaceted problem, we propose a modular architecture that decouples the task
into visual perception and action policy, and name it as MOCA, a Modular
Object-Centric Approach. We evaluate our method on the ALFRED benchmark and
empirically validate that it outperforms prior arts by significant margins in
all metrics with good generalization performance (high success rate in unseen
environments). Our code is available at https://github.com/gistvision/moca.
- Abstract(参考訳): 言語指示に基づく単純な家庭のタスクを実行することは、人間にとって非常に自然なことですが、AIエージェントにとってはオープンな課題です。
近年,シミュレーション環境においてオブジェクトインタラクションを必要とする長い命令列を推論する研究を進めるために,'interactive instruction following'タスクが提案されている。
視覚、言語、ナビゲーションの文学におけるオープンな問題を各ステップで解決する。
この多面的問題に対処するために,タスクを視覚的知覚と行動ポリシーに分離するモジュールアーキテクチャを提案し,その名前をMOCA,Modular Object-Centric Approachと呼ぶ。
提案手法をALFREDベンチマークで評価し, 高い一般化性能(未確認環境における高い成功率)を有する全ての指標において, 先行技術よりも有意差があることを実証的に検証した。
私たちのコードはhttps://github.com/gistvision/mocaで利用可能です。
関連論文リスト
- NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via
Vision-Language Foundation Models [18.54932978194969]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Instruct Me More! Random Prompting for Visual In-Context Learning [30.31759752239964]
Instruct Me More (InMeMo)は、学習可能な摂動(prompt)によってコンテキスト内のペアを拡張し、その可能性を探る手法である。
メインストリームタスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
この結果から,InMeMoは軽量トレーニングによる視覚的ICLの性能向上のための多目的かつ効率的な方法である可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T01:39:00Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。